Atitit.网页爬虫的架构总结

浏览数：45 / 时间：2015年06月09日

Atitit.网页爬虫的架构总结

1. 总数的结构..(接口方法) 1

1. 总数的结构..(接口方法)

public String exec( ) throws IOException {

fx=new filex(fileName);

int pages=getpage();

for(int i=1;i<=pages;i++)

{

if(i<pageStart)

continue;

try {

singlePage(i);

} catch (Exception e) {

e.printStackTrace();

}

fx.close();

2. 获得页数

getpage();

作者:: 老哇的爪子 Attilax 艾龙， EMAIL:[email protected]

转载请注明来源： http://blog.csdn.net/attilax

3. 跳页处理(接口方法)

if(i<pageStart)

continue;

4. 单个的页面处理(接口方法)

private void singlePage(int page) throws ConnEx, NoRztEx, ParseLsitEx {

String html = null;

try {

String api = (String) getCurPageUrl(page);

//http://www.czvv.com/k5bu6562Rp0c0cc0s0m0e0f0d0.html

websitex wc = new websitex();

wc.refer="

html = wc.WebpageContent(api, "utf-8", 15);

} catch (Exception e) {

e.printStackTrace();

throw new ConnEx(e.getMessage());

}

//================trace

if (new File("C:\\traceOk").exists())

filex.save_safe(html, "c:\\rztTrace.html");

List li=getList(html);

for(Object obj:li)

{

try {

processItem(obj);

} catch (Exception e) {

e.printStackTrace();

}

4.1. 获得页面url

4.2. 获得页面html

4.3. 获得list

private List getList(String html) throws NoRztEx, ParseLsitEx {

try {

Document doc = null;

doc = Jsoup.parse(html);

Elements tabs = doc.getElementsByTag("ol");

return tabs;

} catch (Exception e) {

e.printStackTrace();

//System.out.println("norzt:" + addr);

throw new ParseLsitEx("noRzt");

}

4.4. 处理单个的数据条目

private void processItem(Object obj) {

Element item=(Element) obj;

String name=item.getElementsByClass("resultName").get(0).text();

Element e= item.getElementsByClass("l_r").get(0);

String tel=e.child(0).text();

String lyesyiren=e.child(1).text();

String addr=e.child(2).text();

String line = name+","+tel+","+lyesyiren+","+addr;

fx.appendLine_flush_safe(line);

System.out.println( line);

}

5. 调用

WebInfoX x=new WebInfoX();

x.fileName=args[0];// "c:\\r2.csv";

x.pages=Integer.parseInt(args[1]);

x.pageStart=Integer.parseInt(args[2]);;

x.exec( );

System.out.println("--fi");

}

6. 日志的实现

使用默认的console最简单的..或者使用queue+textarea....麻烦的

7. 参考

paip.c++ qt 网页爬虫的网络编程总结 - attilax的专栏 - 博客频道 - CSDN.NET.htm

郑重声明：本站内容如果来自互联网及其他传播媒体，其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。

Atitit.网页爬虫的架构总结

标签： class style com 使用 log html http 数据 si class style com 使用 log html http 数据 si

Atitit.网页爬虫的架构总结

1. 总数的结构..(接口方法)

2. 获得页数

3. 跳页处理(接口方法)

4. 单个的页面处理(接口方法)

4.1. 获得页面url

4.2. 获得页面html

4.3. 获得list

4.4. 处理单个的数据条目

5. 调用

6. 日志的实现

7. 参考

相关文章

随机文章

您可能还喜欢

您可能还喜欢

最新图文

您可能还喜欢

您可能还喜欢

文摘排行

文章排行

推荐文章

图文排行

推荐图文