网站首页娱乐新闻焦点新闻历史秘闻社会百态技术文章科技资讯其他资讯女性专栏

首页 > 网络文摘 > 正文

web爬虫

浏览数：23 / 时间：2015年06月09日

第一、爬虫及其行为方式

1.根集

2.连接的提取和相对链接的标准化

从页面提取出链接，然后把相对链接转化为绝对链接

3.避免环路的出现

4.循环和复制

5.记录爬过得链接

树和散列表
有损的存在位图
集群和索引

6.规范URL

7.避免循环和重复

规范URL
广度优先的爬行
节流：限制一段时间内机器人可以从一个WEB站点获取的页面的数量
限制URL的大小
URL/站点黑白名单
内容识别
模式检测
人工监视

8.机器人的HTTP

http1.1加host首部

9.web站点和robots.txt文件

1.获取robots.txt

2.robots文件采用了非常简单的、面向行的语法

robotx.txt有三种类型的行：空行、注释行、规则行

User-Agent：<robot-name>

Disallow:URL list

机器人将期望访问的url与上面的URL list做比较，如果不在list内，说明可以访问该URL

web爬虫,古老的榕树,5-wow.com

郑重声明：本站内容如果来自互联网及其他传播媒体，其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。

标签： web爬虫web爬虫

相关文章

随机文章

您可能还喜欢

您可能还喜欢

最新图文

更多

可爱穿搭很重要

可爱穿搭很重要

工藤美樱写真集

工藤美樱写真集

斯米兰海水是真不错

斯米兰海水是真不错

海边想拍氛围照

海边想拍氛围照

海岛度假

海岛度假

甜妹 ootd 穿搭

甜妹 ootd 穿搭

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

7080后儿时集体回忆插画

7080后儿时集体回忆插画

西安子午峪满山的白杜鹃太美了

西安子午峪满山的白杜鹃太美了

职业模特拍摄省事很多

职业模特拍摄省事很多

您可能还喜欢

更多

林彪的书法欣赏

林彪的书法欣赏

周杰伦的新婚妻子昆凌

周杰伦的新婚妻子昆凌

陶喆小16岁未婚妻首曝光外型亮丽系富家千金

陶喆小16岁未婚妻首曝光外型亮丽系富家千金

重庆街拍衣服买大了

重庆街拍衣服买大了

桂林旅游实拍

桂林旅游实拍

吴莫愁发新片谈李代沫动情落泪：等他回来

吴莫愁发新片谈李代沫动情落泪：等他回来

一场高校女生的比基尼秀

一场高校女生的比基尼秀

乌鲁木齐一早市发生爆炸

乌鲁木齐一早市发生爆炸

巴西男子头颈颠倒身残志坚

巴西男子头颈颠倒身残志坚

广西桂平石龙镇的5月22日车祸事故

广西桂平石龙镇的5月22日车祸事故

您可能还喜欢

更多

佛山14岁学生坠楼亡打赌跳对面宿舍失足

佛山14岁学生坠楼亡打赌跳对面宿舍失足

NBA 新晋第一女神走红

NBA 新晋第一女神走红

肇庆一婴儿头部撞入煲里被热粥烫伤

肇庆一婴儿头部撞入煲里被热粥烫伤

斯米兰海水是真不错

斯米兰海水是真不错

三亚商品街打架

三亚商品街打架

米兰时装周火辣上演美模抱萌娃走秀场面温馨

米兰时装周火辣上演美模抱萌娃走秀场面温馨

深圳富豪轰动澳洲买豪宅开派对会巨星

深圳富豪轰动澳洲买豪宅开派对会巨星

印尼原始部落生活大揭秘

印尼原始部落生活大揭秘

杭州一企业女员工集体穿肚兜上班

杭州一企业女员工集体穿肚兜上班

男子在背上刺《清明上河图》历时7天完成

男子在背上刺《清明上河图》历时7天完成