Jsoup解析网页获取信息
毕设需要使用网页上的数据,然后就用到了JSOUP。
既然是解析Html,首先要做的就是获取html这个页面,也就是要成功链接url。
就拿我做的举个例子,我需要解析获取我们学校官网上的新闻,链接地址为:http://www.chzu.edu.cn/s/1/t/1152/p/3/list.htm
界面如下:
首先创建一个java项目,引入jsoup包,我用的是jsoup-1.6.1.jar
然后就是写代码连接url
Document doc; doc = Jsoup.connect("http://www.chzu.edu.cn/s/1/t/1152/p/2/list.htm").get();这一步成功连接的话,就得到了html源代码!
然后就是分析html代码,根据class、id或tag来获取想要的内容。
我用的是Firefox里的查件firebug,观察html源代码
新闻用的都是统一样式,可以先根据class“columnStyle”来获取页面上所有的新闻列表,然后遍历,将标题和时间得到,这个时候,查看去jsoup官网看一看api和demo。
第一步,获取样式为columnStyle的所有元素
Elements ListDiv = doc.getElementsByClass("columnStyle");这样就获取了新闻列表的html代码
第二部根据Tag“a”获取文本内容和属性“href”的值,也就是标题和LinkUrl;根据class为“postTime”获取发布时间,这里可以使用get(0),因为在columnStyle下面只有一个class为“postTime”的元素,代码为
for(int i=0;i<ListDiv.size();i++){ Element column_ele = ListDiv.get(i); Element td_ele = column_ele.getElementsByTag("a").get(0); System.out.println("Href:"+td_ele.attr("href")); System.out.println("Title:"+td_ele.text().trim()); Element time_ele = column_ele.getElementsByClass("postTime").get(0); System.out.println("PublisTime:"+time_ele.text()); }这样看来,jsoup解析html并不是那么难,运行结果为:
Title:滁州学院出台文件力推科技工作 Href:/s/1/t/1152/83/89/info99209.htm PublisTime:2015-03-10 Title:滁州学院与马来西亚城市理工大学签订合作协议 Href:/s/1/t/1152/83/aa/info99242.htm PublisTime:2015-03-11 Title:民进滁州学院支部获评全省先进基层组织 Href:/s/1/t/1152/83/a5/info99237.htm PublisTime:2015-03-11 Title:滁州学院领导调研创业孵化基地 Href:/s/1/t/1152/83/a4/info99236.htm PublisTime:2015-03-11 Title:滁州学院纪委专题学习省纪委九届五次全会精神 Href:/s/1/t/1152/83/8a/info99210.htm PublisTime:2015-03-10 Title:滁州学院师生热议全国“两会” Href:/s/1/t/1152/83/88/info99208.htm PublisTime:2015-03-10 Title:滁州学院在第四届全国大学生艺术展演中获佳绩 Href:/s/1/t/1152/83/70/info99184.htm PublisTime:2015-03-10 Title:滁州学院部署2015年对口招生暨普通专升本工作 Href:/s/1/t/1152/82/f7/info99063.htm PublisTime:2015-03-08 Title:滁州学院举办多彩趣味活动喜迎三八妇女节 Href:/s/1/t/1152/82/f6/info99062.htm PublisTime:2015-03-08 Title:滁州学院开展义务植树推进绿色校园建设 Href:/s/1/t/1152/82/6b/info98923.htm PublisTime:2015-03-06 Title:滁州学院两学子获"安徽省十佳大学生"提名奖 Href:/s/1/t/1152/82/68/info98920.htm PublisTime:2015-03-05 Title:滁州学院召开务虚会认真谋划2015年工作 Href:/s/1/t/1152/82/3b/info98875.htm PublisTime:2015-03-03 Title:滁州学院领导开学第一天检查教学运行情况 Href:/s/1/t/1152/82/29/info98857.htm PublisTime:2015-03-03 Title:滁州学院召开新学期第一次教学督导组工作会议 Href:/s/1/t/1152/81/f7/info98807.htm PublisTime:2015-03-03 Title:滁州学院辅导员获全国高校辅导员优秀博文奖 Href:/s/1/t/1152/81/f8/info98808.htm PublisTime:2015-03-02源码下载(包括Jar包)
接下来做的就是获取文章的内容,包括图片~~~未完待续
郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。