基于lucene的案例开发:ClassUtil & CharsetUtil
这篇博客主要介绍ClassUtil类和CharsetUtil类。这两个也是项目中比较常用的类,一个用于指定文件路径,一个用于检测文件的编码方式。
ClassUtil
ClassUtil类中的方法主要是返回class文件所在的文件目录或工程的根目录地址,这主要用于指定工程中配置文件的路径,不至于环境迁移而导致配置文件路径错误。源代码如下:
/** * @Description: 类工具 */ package com.lulei.util; public class ClassUtil { /** * @param c * @return * @Description: 返回类class文件所在的目录 */ public static String getClassPath(Class<?> c) { return c.getResource("").getPath().replaceAll("%20", " "); } /** * @Description: * @param c * @param hasName 是否显示文件名 * @return 返回类class文件的地址 */ public static String getClassPath(Class<?> c, boolean hasName) { String name = c.getSimpleName() + ".class"; String path = c.getResource(name).getPath().replaceAll("%20", " "); if (hasName) { return path; } else { return path.substring(0, path.length() - name.length()); } } /** * @Description: 返回类class文件所在的顶级目录 * @param c * @return */ public static String getClassRootPath(Class<?> c) { return c.getResource("/").getPath().replaceAll("%20", " "); } public static void main(String[] args) { System.out.println(ClassUtil.getClassPath(ClassUtil.class, true)); System.out.println(ClassUtil.getClassPath(Math.class, true)); System.out.println(ClassUtil.getClassRootPath(Math.class)); } }
main函数运行结果如下:
CharsetUtil
CharsetUtil类是基于cpdetector第三方jar包实现的编码检测工具类。如果接触过实际项目,你绝对会碰到程序读取文件乱码或更新运营文件网站就无法正常显示等一系列问题,而这些问题多数都是因为文件编码问题导致的。当然这个工具类,在下一部分的爬虫程序中也扮演着重要的角色。源程序如下:
/** *@Description: 编码方式检测类 */ package com.lulei.util; import java.io.IOException; import java.io.InputStream; import java.net.URL; import java.nio.charset.Charset; import info.monitorenter.cpdetector.io.ASCIIDetector; import info.monitorenter.cpdetector.io.CodepageDetectorProxy; import info.monitorenter.cpdetector.io.JChardetFacade; import info.monitorenter.cpdetector.io.ParsingDetector; import info.monitorenter.cpdetector.io.UnicodeDetector; public class CharsetUtil { private static final CodepageDetectorProxy detector; static {//初始化探测器 detector = CodepageDetectorProxy.getInstance(); detector.add(new ParsingDetector(false)); detector.add(ASCIIDetector.getInstance()); detector.add(UnicodeDetector.getInstance()); detector.add(JChardetFacade.getInstance()); } /** * @param url * @param defaultCharset * @Author:lulei * @return 获取文件的编码方式 */ public static String getStreamCharset (URL url, String defaultCharset) { if (url == null) { return defaultCharset; } try { //使用第三方jar包检测文件的编码 Charset charset = detector.detectCodepage(url); if (charset != null) { return charset.name(); } } catch (Exception e1) { // TODO Auto-generated catch block e1.printStackTrace(); } return defaultCharset; } /** * @param inputStream * @param defaultCharset * @return * @Author:lulei * @Description: 获取文件流的编码方式 */ public static String getStreamCharset (InputStream inputStream, String defaultCharset) { if (inputStream == null) { return defaultCharset; } int count = 200; try { count = inputStream.available(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } try { //使用第三方jar包检测文件的编码 Charset charset = detector.detectCodepage(inputStream, count); if (charset != null) { return charset.name(); } } catch (Exception e1) { // TODO Auto-generated catch block e1.printStackTrace(); } return defaultCharset; } public static void main(String[] args) throws Exception { URL url = new URL("http://www.csdn.net"); System.out.println(CharsetUtil.getStreamCharset(url, "default")); } }
main函数运行结果如下:
ps:最近发现其他网站可能会对博客转载,上面并没有源链接,如想查看更多关于 基于lucene的案例开发 请点击这里。或访问网址http://blog.csdn.net/xiaojimanman/article/category/2841877
郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。