Jsoup处理html空格乱码问题
由于在html中空格只能用 表示,当运用Jsoup抓取html页面后,我们将html页面进行解析时,Java对html页面的代码不识别,输入到控制台时出现乱码,在网上查了很多资料都没有找到很好的解决办法,最后在一篇论坛中说到“运用字符串替换”可以进行解决,于是运用简单的字符串替换原理对此进行处理。对其替换处理后再对html文件进行解析。具体实现代码如下:
//参数说明:oldFile为所需要替换的文件,即为原文件; newFile为替换后新的文件 ;oldString为所需要替换的字符串;newString为替换字符串 public static void replaceAllFileString(File oldFile, File newFile, String oldString, String newString){ try { BufferedReader reader = new BufferedReader(new FileReader(oldFile)); BufferedWriter writer = new BufferedWriter(new FileWriter(newFile)); String teamString = null; while((teamString = reader.readLine()) != null){ String str = teamString.replaceAll(oldString, newString); writer.write(str); } reader.close(); writer.close(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } }
郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。