网站首页娱乐新闻焦点新闻历史秘闻社会百态技术文章科技资讯其他资讯女性专栏

首页 > 网络文摘 > 正文

浅谈屏蔽搜索引擎爬虫（蜘蛛）抓取/索引/收录网页的几种思路

浏览数：49 / 时间：2015年06月09日

　　网站建设好了，当然是希望网页被搜索引擎收录的越多越好，但有时候我们也会碰到网站不需要被搜索引擎收录的情况。

　　比如，你要启用一个新的域名做镜像网站，主要用于PPC 的推广，这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话，很有可能会影响官网在搜索引擎的权重，这肯定是我们不想看到的结果。

　　以下列举了屏蔽主流搜索引擎爬虫（蜘蛛）抓取/索引/收录网页的几种思路。注意：是整站屏蔽，而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫（蜘蛛）。

1、通过 robots.txt 文件屏蔽

　　可以说 robots.txt 文件是最重要的一种渠道（能和搜索引擎建立直接对话）。我通过分析我自己博客的服务器日志文件，给出以下建议（同时欢迎网友补充）：

User-agent: Baiduspider

Disallow: /

User-agent: Googlebot

Disallow: /

User-agent: Googlebot-Mobile

Disallow: /

User-agent: Googlebot-Image

Disallow:/

User-agent: Mediapartners-Google

Disallow: /

User-agent: Adsbot-Google

Disallow: /

User-agent:Feedfetcher-Google

Disallow: /

User-agent: Yahoo! Slurp

Disallow: /

User-agent: Yahoo! Slurp China

Disallow: /

User-agent: Yahoo!-AdCrawler

Disallow: /

User-agent: YoudaoBot

Disallow: /

User-agent: Sosospider

Disallow: /

User-agent: Sogou spider

Disallow: /

User-agent: Sogou web spider

Disallow: /

User-agent: MSNBot

Disallow: /

User-agent: ia_archiver

Disallow: /

User-agent: Tomato Bot

Disallow: /

User-agent: *

Disallow: /

2、通过 meta tag 屏蔽

　　在所有的网页头部文件添加，添加如下语句：

　　　　<meta name="robots" content="noindex, nofollow">

3、通过服务器（如：Linux/nginx ）配置文件设置

　　直接过滤 spider/robots 的IP 段。

　　小注：第1招和第2招只对“君子”有效，防止“小人”要用到第3招（“君子”和“小人”分别泛指指遵守与不遵守 robots.txt 协议的 spider/robots），所以网站上线之后要不断跟踪分析日志，筛选出这些 badbot 的ip，然后屏蔽之。

　　这里有一个badbot ip 数据库：http://www.spam-whackers.com/bad.bots.htm

4、通过搜索引擎提供的站长工具，删除网页快照

　　比如，有的时候百度不严格遵守 robots.txt 协议，可以通过百度提供的“网页投诉”入口删除网页快照。百度网页投诉中心：http://tousu.baidu.com/webmaster/add

　　如下图是我的一个网页投诉：

大概3天左右的时间过去，这个网页的百度快照也被删除，说明此种方法也能起效，当然这是不得而为之，属于亡羊补牢。

5、补充更新

　　可以通过检测 HTTP_USER_AGENT 是否为爬虫/蜘蛛访问，然后直接返回403 状态码屏蔽之。比如：由于api 权限与微博信息隐私保护原因，Xweibo 2.0 版本后禁止搜索引擎收录。

　　关于如何屏蔽搜索引擎爬虫（蜘蛛）抓取/索引/收录网页，您有其他什么更好的建议或者方法，也欢迎发表评论！期待与您交流。

本文作者：Bruce

原文地址：http://www.wuzhisong.com/blog/67/

版权声明：欢迎转载，但必须以超链接方式注明本文原始出处！

郑重声明：本站内容如果来自互联网及其他传播媒体，其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。

浅谈屏蔽搜索引擎爬虫（蜘蛛）抓取/索引/收录网页的几种思路

标签： class src 文件 com 数据 log Go 方法 http class src 文件 com 数据 log Go 方法 http

相关文章

随机文章

您可能还喜欢

您可能还喜欢

最新图文

更多

可爱穿搭很重要

可爱穿搭很重要

工藤美樱写真集

工藤美樱写真集

斯米兰海水是真不错

斯米兰海水是真不错

海边想拍氛围照

海边想拍氛围照

海岛度假

海岛度假

甜妹 ootd 穿搭

甜妹 ootd 穿搭

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

7080后儿时集体回忆插画

7080后儿时集体回忆插画

西安子午峪满山的白杜鹃太美了

西安子午峪满山的白杜鹃太美了

职业模特拍摄省事很多

职业模特拍摄省事很多

您可能还喜欢

更多

亮瞎眼！帅哥美女骑行西藏前后惊悚对比

亮瞎眼！帅哥美女骑行西藏前后惊悚对比

深圳小区现4层楼深大坑保安被吞噬亡

深圳小区现4层楼深大坑保安被吞噬亡

美国19周的早产儿

美国19周的早产儿

栩栩如生的街头三维立体画--绝对逼真

栩栩如生的街头三维立体画--绝对逼真

赵忠祥5亿豪宅再次曝光

赵忠祥5亿豪宅再次曝光

土耳其海滩

土耳其海滩

特斯拉入门两厢车新车预览

特斯拉入门两厢车新车预览

鲁迅先生书法手稿真迹

鲁迅先生书法手稿真迹

婚纱店主用女儿尸体做模特

婚纱店主用女儿尸体做模特

男子在背上刺《清明上河图》历时7天完成

男子在背上刺《清明上河图》历时7天完成

您可能还喜欢

更多

曝快播公司现大量警察员工只进不出

曝快播公司现大量警察员工只进不出

特斯拉 MODEL S 图集

特斯拉 MODEL S 图集

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

刘雯秀场新造型太震撼，两条带子做衣服太时髦，肩部“凹凸不平”

刘雯秀场新造型太震撼，两条带子做衣服太时髦，肩部“凹凸不平”

河南一男童走失半年再见成“干尸”

河南一男童走失半年再见成“干尸”

国外甜美金发MM

国外甜美金发MM

周杰伦的新婚妻子昆凌

周杰伦的新婚妻子昆凌

51岁关之琳抹浓妆现身活动脸颊深陷美人迟暮

51岁关之琳抹浓妆现身活动脸颊深陷美人迟暮

货车侧翻市民：不抢是傻子

货车侧翻市民：不抢是傻子

广西桂平石龙镇的5月22日车祸事故

广西桂平石龙镇的5月22日车祸事故