投储在线新闻采集(http://www.touchu.cn)-Soukey使用说明

 

投储在线新闻采集(http://www.touchu.cn)-Soukey使用说明

 

1功能

采集网站数据

 

2定制采集

2.1新建任务

 

 

如果要保存采集的数据,执行类型请选择“采集并发布数据”

 

 

2.2添加采集网址

网页地址填写采集的起始网址。具体说明如下:

要采集http://www.caihuohuo.cn/Vcase.html中的文章内容,该页面可以通过点击“下一页”进行翻页,于是选中“根据下一页标识自动翻页”,下一页标识填写“下一页”。

由于该网页是文章目录列表,通过链接查看全部内容,我们需要采集每篇文章链接中的全部内容。

分析每篇文章的链接格式,均以http://www.caihuohuo.cn/Varticle/index/id/开始,所以添加导航规则:/Varticle/index/id/。如下图:

 

 

2.3添加采集规则

要在导航页面中匹配出关注的内容,通过“起始位置”和“结束位置”进行匹配,“页面采集范围”可以限制起始位置和结束位置的搜索范围。具体规则需要从网页源码中分析。如下图:

 

 

2.4发布数据

如果基本设置中的执行类型选择的是“采集并发布数据”,则可以选择把采集结果存放到文件或数据库。如下图:

 

 

2.5开始采集

开始采集只能从任务分类的任务列表中选择任务,然后再开始执行,否则会出现异常,这是软件本身的问题。

 

郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。