网站首页娱乐新闻焦点新闻历史秘闻社会百态技术文章科技资讯其他资讯女性专栏

首页 > 网络文摘 > 正文

《http权威指南》读书笔记五

浏览数：34 / 时间：2015年06月09日

WEB机器人之robots协议

web机器人，即爬虫。可以递归的对web站点进行遍历查询，获取web页面。

robots.txt：robots协议，是一种自愿约束技术。有些web站点并不希望web机器人查看其站内某些隐私信息，人们提出了robots协议。即所有web站点都可以在其根目录下创建一个robots.txt的文件，该文件里面记录了web机器人可以访问的文件和不可以访问的文件。如果web机器人愿意遵守这个协议，当它访问一个web站点时，会首先去根目录下读取robots.txt文件，查看是否有权限去获取个文件。

注：robots.txt资源并不一定严格的存在于web站点的文件系统中，它可以由一个网关应用程序动态的生成。

web机器人使用GET方法请求robots.txt，如果web站点存在该文件，就会将其放在text/plain主体返回给web机器人。如果不存在该文件，则返回404。说明该站点对web机器人没有任何限制。

robots.txt文件格式：

User-Agent：<robot-name1>(不区分大小写)

Disallow：/private

User-Agent：<robot-name2>

Disallow：/protect

如果机器人没有在该文件中找到与之匹配的规则，则访问不受限制。

郑重声明：本站内容如果来自互联网及其他传播媒体，其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。

《http权威指南》读书笔记五

标签： robots协议robots协议

相关文章

随机文章

您可能还喜欢

您可能还喜欢

最新图文

更多

可爱穿搭很重要

可爱穿搭很重要

工藤美樱写真集

工藤美樱写真集

斯米兰海水是真不错

斯米兰海水是真不错

海边想拍氛围照

海边想拍氛围照

海岛度假

海岛度假

甜妹 ootd 穿搭

甜妹 ootd 穿搭

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

7080后儿时集体回忆插画

7080后儿时集体回忆插画

西安子午峪满山的白杜鹃太美了

西安子午峪满山的白杜鹃太美了

职业模特拍摄省事很多

职业模特拍摄省事很多

您可能还喜欢

更多

贤淑贤惠的妹妹

贤淑贤惠的妹妹

车臣47岁已婚军阀逼婚17岁少女

车臣47岁已婚军阀逼婚17岁少女

泰国地下女子裸体泰拳比赛照曝光

泰国地下女子裸体泰拳比赛照曝光

2014春南宁车展部分模特

2014春南宁车展部分模特

大学生全裸图书馆前静坐呼吁尊重身体

大学生全裸图书馆前静坐呼吁尊重身体

海边想拍氛围照

海边想拍氛围照

秦舒培高挑身材

秦舒培高挑身材

老人被轧躺倒路中间 9中学生合力救人将其送医

老人被轧躺倒路中间 9中学生合力救人将其送医

男子用煤气罐挟持怀孕女友致2伤

男子用煤气罐挟持怀孕女友致2伤

全球15万女性同秀旗袍挑战吉尼斯世界纪录

全球15万女性同秀旗袍挑战吉尼斯世界纪录

您可能还喜欢

更多

亮瞎眼！帅哥美女骑行西藏前后惊悚对比

亮瞎眼！帅哥美女骑行西藏前后惊悚对比

深圳孕妇当街产子路人组成人墙守护接生

深圳孕妇当街产子路人组成人墙守护接生

东北花袄

东北花袄

消防员抱起火煤气罐冲出火场

消防员抱起火煤气罐冲出火场

启功书法部分欣赏

启功书法部分欣赏

桂林旅游实拍

桂林旅游实拍

7080后儿时集体回忆插画

7080后儿时集体回忆插画

AI 生成的美女图

AI 生成的美女图

乌鲁木齐一早市发生爆炸

乌鲁木齐一早市发生爆炸

全国高校校花新鲜出炉

全国高校校花新鲜出炉