《http权威指南》读书笔记 五

WEB机器人之robots协议


web机器人,即爬虫。可以递归的对web站点进行遍历查询,获取web页面。

robots.txt:robots协议,是一种自愿约束技术。有些web站点并不希望web机器人查看其站内某些隐私信息,人们提出了robots协议。即所有web站点都可以在其根目录下创建一个robots.txt的文件,该文件里面记录了web机器人可以访问的文件和不可以访问的文件。如果web机器人愿意遵守这个协议,当它访问一个web站点时,会首先去根目录下读取robots.txt文件,查看是否有权限去获取个文件。

注:robots.txt资源并不一定严格的存在于web站点的文件系统中,它可以由一个网关应用程序动态的生成。

web机器人使用GET方法请求robots.txt,如果web站点存在该文件,就会将其放在text/plain主体返回给web机器人。如果不存在该文件,则返回404。说明该站点对web机器人没有任何限制。

robots.txt文件格式:

User-Agent:<robot-name1>(不区分大小写)

Disallow:/private


User-Agent:<robot-name2>

Disallow:/protect

如果机器人没有在该文件中找到与之匹配的规则,则访问不受限制。


郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。