正则表达式,网页爬虫
package cn.itcast.regex.demo; /* * 正则表达式。 * * 正则表达式用于操作字符串数据。 * 通过一些特定的符号来体现的。 * 所以我们为了掌握正则表达式,必须要学习一些符号。 * * 虽然简化了,但是阅读性差。 * * * */ public class RegexDemo { /** * @param args */ public static void main(String[] args) { String qq = "123k4567"; // checkQQ(qq); String regex = "[1-9][0-9]{4,14}";//正则表达式。 // boolean b = qq.matches(regex); // System.out.println(qq+":"+b); // String str = "aoooooooob"; // String reg = "ao{4,6}b"; // boolean b = str.matches(reg); // System.out.println(str+":"+b); } /* * 需求:定义一个功能对QQ号进行校验。 * 要求:长度5~15. 只能是数字, 0不能开头 */ public static void checkQQ(String qq){ int len = qq.length(); if(len>=5 && len<=15){ if(!qq.startsWith("0")){ try { long l = Long.parseLong(qq); System.out.println(l+":正确"); }catch(NumberFormatException e){ System.out.println(qq+":含有非法字符"); } }else{ System.out.println(qq+":不能0开头"); } }else{ System.out.println(qq+":长度错误"); } } }
package cn.itcast.regex.demo; import java.util.regex.Matcher; import java.util.regex.Pattern; public class RegexDemo2 { /** * @param args */ public static void main(String[] args) { /* * 正则表达式对字符串的常见操作: * 1, 匹配。 * 其实使用的就是String类中的matches方法。 * * 2,切割。 * 其实使用的就是String类中的split方法。 * * 3,替换。 * 其实使用的就是String类中的replaceAll()方法。 * * 4,获取。 * */ functionDemo_4(); } /* * 获取 * 将正则规则进行对象的封装。 * Pattern p = Pattern.compile("a*b"); * //通过正则对象的matcher方法字符串相关联。获取要对字符串操作的匹配器对象Matcher . * Matcher m = p.matcher("aaaaab"); * //通过Matcher匹配器对象的方法对字符串进行操作。 * boolean b = m.matches(); * * */ public static void functionDemo_4() { String str = "da jia hao,ming tian bu fang jia!"; String regex = "\\b[a-z]{3}\\b"; //1,将正则封装成对象。 Pattern p = Pattern.compile(regex); //2, 通过正则对象获取匹配器对象。 Matcher m = p.matcher(str); //使用Matcher对象的方法对字符串进行操作。 //既然要获取三个字母组成的单词 //查找。 find(); System.out.println(str); while(m.find()){ System.out.println(m.group());//获取匹配的子序列 System.out.println(m.start()+":"+m.end()); } } /* * 替换 */ public static void functionDemo_3() { String str = "zhangsanttttxiaoqiangmmmmmmzhaoliu"; str = str.replaceAll("(.)\\1+", "$1"); System.out.println(str); String tel = "15800001111";//158****1111; tel = tel.replaceAll("(\\d{3})\\d{4}(\\d{4})", "$1****$2"); System.out.println(tel); } /* * 切割。 * * 组:((A)(B(C))) */ public static void functionDemo_2(){ String str = "zhangsanttttxiaoqiangmmmmmmzhaoliu"; String[] names = str.split("(.)\\1+");//str.split("\\."); for(String name : names){ System.out.println(name); } } /* * 演示匹配。 */ public static void functionDemo_1(){ //匹配手机号码是否正确。 String tel = "15800001111"; String regex = "1[358]\\d{9}"; boolean b = tel.matches(regex); System.out.println(tel+":"+b); } }
package cn.itcast.regex.test; import java.util.TreeSet; public class RegexTest { /** * @param args */ public static void main(String[] args) { /* * 1,治疗口吃:我我...我我...我我我要...要要要要...要要要要..学学学学学...学学编编...编编编编..编..程程...程程...程程程 * 2,对ip地址排序。 * 3,对邮件地址校验。 */ test_3(); } //对邮件地址校验。 public static void test_3() { String mail = "[email protected]"; String regex = "[a-zA-Z0-9_]+@[a-zA-Z0-9]+(\\.[a-zA-Z]{1,3})+"; regex = "\\w+@\\w+(\\.\\w+)+";//[email protected] boolean b = mail.matches(regex); System.out.println(mail+":"+b); } /* * 1,治口吃。 */ public static void test_1(){ String str = "我我...我我...我我我要...要要要要...要要要要..学学学学学...学学编编...编编编编..编..程程...程程...程程程"; //1,将字符串中.去掉。 用替换。 str = str.replaceAll("\\.+", ""); System.out.println(str); //2,替换叠词。 str = str.replaceAll("(.)\\1+", "$1"); System.out.println(str); } /* * ip地址排序。 * * 192.168.10.34 127.0.0.1 3.3.3.3 105.70.11.55 */ public static void test_2(){ String ip_str = "192.168.10.34 127.0.0.1 3.3.3.3 105.70.11.55"; //1,为了让ip可以按照字符串顺序比较,只要让ip的每一段的位数相同。 //所以,补零,按照每一位所需做多0进行补充。每一段都加两个0. ip_str = ip_str.replaceAll("(\\d+)", "00$1"); System.out.println(ip_str); //然后每一段保留数字3位。 ip_str = ip_str.replaceAll("0*(\\d{3})", "$1"); System.out.println(ip_str); //1,将ip地址切出。 String[] ips = ip_str.split(" +"); TreeSet<String> ts = new TreeSet<String>(); for(String ip : ips){ // System.out.println(ip); ts.add(ip); } for(String ip : ts){ System.out.println(ip.replaceAll("0*(\\d+)", "$1")); } } }
package cn.itcast.regex.test; import java.io.BufferedReader; import java.io.FileReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.URL; import java.util.ArrayList; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern; /* * 网页爬虫:其实就一个程序用于在互联网中获取符合指定规则的数据。 * * 爬取邮箱地址。 * */ public class RegexTest2 { /** * @param args * @throws IOException */ public static void main(String[] args) throws IOException { List<String> list = getMailsByWeb(); for(String mail : list){ System.out.println(mail); } } public static List<String> getMailsByWeb() throws IOException { //1,读取源文件。 // BufferedReader bufr = new BufferedReader(new FileReader("c:\\mail.html")); URL url = new URL("http://192.168.1.100:8080/myweb/mail.html"); BufferedReader bufIn = new BufferedReader(new InputStreamReader(url.openStream())); //2,对读取的数据进行规则的匹配。从中获取符合规则的数据. String mail_regex = "\\w+@\\w+(\\.\\w+)+"; List<String> list = new ArrayList<String>(); Pattern p = Pattern.compile(mail_regex); String line = null; while((line=bufIn.readLine())!=null){ Matcher m = p.matcher(line); while(m.find()){ //3,将符合规则的数据存储到集合中。 list.add(m.group()); } } return list; } public static List<String> getMails() throws IOException{ //1,读取源文件。 BufferedReader bufr = new BufferedReader(new FileReader("c:\\mail.html")); //2,对读取的数据进行规则的匹配。从中获取符合规则的数据. String mail_regex = "\\w+@\\w+(\\.\\w+)+"; List<String> list = new ArrayList<String>(); Pattern p = Pattern.compile(mail_regex); String line = null; while((line=bufr.readLine())!=null){ Matcher m = p.matcher(line); while(m.find()){ //3,将符合规则的数据存储到集合中。 list.add(m.group()); } } return list; } }
郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。