投储在线新闻采集(http://www.touchu.cn)-Soukey使用说明
投储在线新闻采集(http://www.touchu.cn)-Soukey使用说明
1功能
采集网站数据
2定制采集
2.1新建任务
如果要保存采集的数据,执行类型请选择“采集并发布数据”
2.2添加采集网址
网页地址填写采集的起始网址。具体说明如下:
要采集http://www.caihuohuo.cn/Vcase.html中的文章内容,该页面可以通过点击“下一页”进行翻页,于是选中“根据下一页标识自动翻页”,下一页标识填写“下一页”。
由于该网页是文章目录列表,通过链接查看全部内容,我们需要采集每篇文章链接中的全部内容。
分析每篇文章的链接格式,均以http://www.caihuohuo.cn/Varticle/index/id/开始,所以添加导航规则:/Varticle/index/id/。如下图:
2.3添加采集规则
要在导航页面中匹配出关注的内容,通过“起始位置”和“结束位置”进行匹配,“页面采集范围”可以限制起始位置和结束位置的搜索范围。具体规则需要从网页源码中分析。如下图:
2.4发布数据
如果基本设置中的执行类型选择的是“采集并发布数据”,则可以选择把采集结果存放到文件或数据库。如下图:
2.5开始采集
开始采集只能从任务分类的任务列表中选择任务,然后再开始执行,否则会出现异常,这是软件本身的问题。
郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。