关于网络爬虫与网站限制IP的思考
网络爬虫者和网站开发人员一直在玩着“潜伏”的游戏,开发人员需要火眼金睛,网络爬虫者需要72般变化,成功演绎一场攻防战。
作为网站后台开发人员,需要对恶意频繁访问的请求进行限制,甚至将请求IP拉入到黑名单,以免给网站带来大量的并发。
而对于网络爬虫者,为了获取查询数据结果,他们会尽量模仿真实用户的请求,防止被网站设别。采取的方式有:
1、user agent 伪装和轮换,尽量模拟真实用户请求
2、使用多IP或者代理IP进行轮换
3、访问时间间隔设长一点,访问时间设置为随机数
当然,作为一个有良心的coder,如果能够通过正规途径来抓取网站数据(比如webservice),请采用正规途径,这样也可以得到网站的技术支持。如果需要线下来抓取,
则尽量把抓取频率降低些,一方面是防止网站后台识别;另一方面也是考虑网站的承受压力。毕竟如果真把别人惹毛了,人家随意一个程序修改,就可以让你的
程序前功尽弃,就如12306不断的更新就是恶意防止别个软件的访问。
郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。