网站首页娱乐新闻焦点新闻历史秘闻社会百态技术文章科技资讯其他资讯女性专栏

首页 > 网络文摘 > 正文

采集爬虫中，解决网站限制IP的问题？

浏览数：35 / 时间：2015年06月09日

方法1.

之前由于公司项目需要，采集过google地图数据，还有一些大型网站数据。

经验如下：
1.IP必须需要，像@alswl 说的非常正确，ADSL。如果有条件，其实可以跟机房多申请外网IP。
2.在有外网IP的机器上，部署代理服务器。
3.你的程序，使用轮训替换代理服务器来访问想要采集的网站。

好处：
1.程序逻辑变化小，只需要代理功能。
2.根据对方网站屏蔽规则不同，你只需要添加更多的代理就行了。

3.就算具体IP被屏蔽了，你可以直接把代理服务器下线就OK，程序逻辑不需要变化。

方法2.

有小部分网站的防范措施比较弱，可以伪装下IP，修改X-Forwarded-for（貌似这么拼。。。）即可绕过。

大部分网站么，如果要频繁抓取，一般还是要多IP。我比较喜欢的解决方案是国外VPS再配多IP，通过默认网关切换来实现IP切换，比HTTP代理高效得多，估计也比多数情况下的ADSL切换更高效。

方法3.

ADSL + 脚本，监测是否被封，然后不断切换 ip
设置查询频率限制

正统的做法是调用该网站提供的服务接口。

方法4.

8年多爬虫经验的人告诉你，国内ADSL是王道，多申请些线路，分布在多个不同的电信区局，能跨省跨市更好，自己写好断线重拨组件，自己写动态IP追踪服务，远程硬件重置（主要针对ADSL猫，防止其宕机），其余的任务分配，数据回收，都不是大问题。我的已经稳定运行了好几年了，妥妥的！

方法5.

1 user agent 伪装和轮换
2 使用代理 ip 和轮换
3 cookies 的处理，有的网站对登陆用户政策宽松些

友情提示：考虑爬虫给人家网站带来的负担，be a responsible crawler :)

方法6.

尽可能的模拟用户行为：
1、UserAgent经常换一换；
2、访问时间间隔设长一点，访问时间设置为随机数；
3、访问页面的顺序也可以随机着来

方法8.

网站封的依据一般是单位时间内特定IP的访问次数.
我是将采集的任务按目标站点的IP进行分组通过控制每个IP 在单位时间内发出任务的个数,来避免被封.当然,这个前题是你采集很多网站.如果只是采集一个网站,那么只能通过多外部IP的方式来实现了.

方法9.

1. 对爬虫抓取进行压力控制；
2. 可以考虑使用代理的方式访问目标站点。

-降低抓取频率，时间设置长一些，访问时间采用随机数
-频繁切换UserAgent（模拟浏览器访问）
-多页面数据，随机访问然后抓取数据
-更换用户IP

郑重声明：本站内容如果来自互联网及其他传播媒体，其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。

采集爬虫中，解决网站限制IP的问题？

标签： style 使用 http 问题 si 数据 it 方法 Go style 使用 http 问题 si 数据 it 方法 Go

相关文章

随机文章

您可能还喜欢

您可能还喜欢

最新图文

更多

可爱穿搭很重要

可爱穿搭很重要

工藤美樱写真集

工藤美樱写真集

斯米兰海水是真不错

斯米兰海水是真不错

海边想拍氛围照

海边想拍氛围照

海岛度假

海岛度假

甜妹 ootd 穿搭

甜妹 ootd 穿搭

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

7080后儿时集体回忆插画

7080后儿时集体回忆插画

西安子午峪满山的白杜鹃太美了

西安子午峪满山的白杜鹃太美了

职业模特拍摄省事很多

职业模特拍摄省事很多

您可能还喜欢

更多

越战结束40年裂痕犹在：越南仍未实现南北和解

越战结束40年裂痕犹在：越南仍未实现南北和解

河南一男童走失半年再见成“干尸”

河南一男童走失半年再见成“干尸”

深圳地铁站附近发生恶性砍人事件

深圳地铁站附近发生恶性砍人事件

小偷刺业主3刀民警赶到时躺地上装死

小偷刺业主3刀民警赶到时躺地上装死

本拉登谋划911恐怖袭击前"老巢"曝光

本拉登谋划911恐怖袭击前"老巢"曝光

超模刘雯

超模刘雯

三岁女童来深圳两月后失踪尸现废弃老屋

三岁女童来深圳两月后失踪尸现废弃老屋

香港生活成本世界最高底层人蜗居“棺材间”

香港生活成本世界最高底层人蜗居“棺材间”

李敏镐图片精选

李敏镐图片精选

大学生全裸图书馆前静坐呼吁尊重身体

大学生全裸图书馆前静坐呼吁尊重身体

您可能还喜欢

更多

泰国平潭岛旅游

泰国平潭岛旅游

近代康生的书法

近代康生的书法

实拍厌食症患者的身体干瘪枯瘦

实拍厌食症患者的身体干瘪枯瘦

范曾书法部分展览

范曾书法部分展览

模特精选

模特精选

男子在背上刺《清明上河图》历时7天完成

男子在背上刺《清明上河图》历时7天完成

传说中的汗血宝马

传说中的汗血宝马

毛泽东和蒋介石的书法，你能区分不？

毛泽东和蒋介石的书法，你能区分不？

亮瞎眼！帅哥美女骑行西藏前后惊悚对比

亮瞎眼！帅哥美女骑行西藏前后惊悚对比

2014春南宁车展部分模特

2014春南宁车展部分模特