正则表达式--——网页爬虫
网页爬虫
import java.net.*; import java.io.*; import java.util.regex.*; class findMail { public static void main(String[] args) throws Exception { //读取流 关联文件 //BufferedReader bin = new BufferedReader(new FileReader("mail.txt")); //获取网页上的数据 需要获取输入流 来自网页端的 URLConnection的getInputStream()来获取输入流 URL url = new URL("http://127.0.0.1:8080/myweb/mail.html"); URLConnection conn = url.openConnection(); BufferedReader bin = new BufferedReader(new InputStreamReader(conn.getInputStream())); String line = null; //定义 邮箱 格式 正则规则 String mailreg = "\\w{2,13}@\\w{2,5}(\\.[a-z]+)+"; //正则规则 封装模式 对象 Pattern p = Pattern.compile(mailreg); while ((line = bin.readLine())!=null) { Matcher m = p.matcher(line);//将模式与字符串关联 if (m.find()) { System.out.println(m.group()); } //System.out.println(line); } } }
本文出自 “要么拼命,要么滚回去!” 博客,请务必保留此出处http://jiangzuun2014.blog.51cto.com/8732469/1440433
郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。