java爬取百度首页logo

  • 两个方法
    • 一个获得Url的网页源代码getUrlContentString,另外一个从源代码中得到想要的地址片段,其中需要用到正则表达式去匹配
  • 得到网页源代码的过程:
    • 地址为string,将地址转换为java中的url对象
    • url的openConnection方法返回urlConnection
    • urlConnection的connect方法建立连接
    • 新建一个InputStreamReader对象,其中InputStreamReader的构建需要InputStream输入流对象,而URLConnection的getInputStream方法则返回输入流对象,所以可以连接起来
    • 然后利用建立好的InputStreamReader对象建立BuffereReader对象
    • 从bufferedreader对象中按行读入网页源码,追加到result字符串中,result字符串即为网页源代码字符串
  • logo地址匹配
    • Pattern pattern = Pattern.compile(patternString);
      • java.util.regex:java类库包,用正则表达式所定义的模式对字符串进行匹配

        它包括两个类:Pattern和Matcher 。

        Pattern: 创建匹配模式字符串。

        Matcher:将匹配模式字符串与输入字符串。

      • patterncompile方法:将指定的字符编译到模式中
    • Matcher matcher = pattern.matcher(contentString);

郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。