现在的位置:首页>网站SEO>正文

禁止搜索引擎蜘蛛(爬虫)抓取收录网页的方法

2017年01月17日 ⁄ 共 1601字 评论 6 条

网站建设好了,当然是希望网页被搜索引擎收录的越多越好,但有时候我们也会碰到网站不需要被搜索引擎收录的情况,比如新网站,在很多栏目还没有完全做好的情况下,这时有的朋友,可能会不想让搜索引擎蜘蛛(爬虫)抓取网站中的页面。当然,也有可能还有一些其它的情况。

比如,你要启用一个新的域名做镜像网站,主要用于PPC的推广,这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话,很有可能会影响官网在搜索引擎的权重,这肯定是我们不想看到的结果。

以下列举了屏蔽主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路。注意:是整站屏蔽,而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫(蜘蛛)。

1、通过 robots.txt 文件屏蔽

可以说 robots.txt 文件是最重要的一种渠道(能和搜索引擎建立直接对话)。我通过分析我自己博客的服务器日志文件,给出以下建议(同时欢迎网友补充):

  1. User-agent: Baiduspider
  2. Disallow: /
  3. User-agent: 360Spider
  4. Disallow: /
  5. User-agent: Googlebot
  6. Disallow: /
  7. User-agent: Googlebot-Mobile
  8. Disallow: /
  9. User-agent: Googlebot-Image
  10. Disallow:/
  11. User-agent: Mediapartners-Google
  12. Disallow: /
  13. User-agent: Adsbot-Google
  14. Disallow: /
  15. User-agent:Feedfetcher-Google
  16. Disallow: /
  17. User-agent: Yahoo! Slurp
  18. Disallow: /
  19. User-agent: Yahoo! Slurp China
  20. Disallow: /
  21. User-agent: Yahoo!-AdCrawler
  22. Disallow: /
  23. User-agent: YoudaoBot
  24. Disallow: /
  25. User-agent: Sosospider
  26. Disallow: /
  27. User-agent: Sogou spider
  28. Disallow: /
  29. User-agent: Sogou web spider
  30. Disallow: /
  31. User-agent: MSNBot
  32. Disallow: /
  33. User-agent: ia_archiver
  34. Disallow: /
  35. User-agent: Tomato Bot
  36. Disallow: /
  37. User-agent: *
  38. Disallow: /

2、通过 meta tag 屏蔽

在所有的网页头部文件添加,添加如下语句:

  1. <meta name="robots" content="noindex, nofollow">

3、通过服务器(如:Linux/nginx )配置文件设置

直接过滤 spider/robots 的IP 段。

小注:第1招和第2招只对“君子”有效,防止“小人”要用到第3招(“君子”和“小人”分别泛指指遵守与不遵守 robots.txt 协议的 spider/robots),所以网站上线之后要不断跟踪分析日志,筛选出这些 badbot 的ip,然后屏蔽之。

4、通过搜索引擎提供的站长工具,删除网页快照

比如,有的时候百度不严格遵守 robots.txt 协议,可以通过百度提供的“网页投诉”入口删除网页快照。百度网页投诉中心:http://tousu.baidu.com/webmaster/add

如下图是我的一个网页投诉:

禁止搜索引擎蜘蛛(爬虫)抓取收录网页的方法

大概3天左右的时间过去,这个网页的百度快照也被删除,说明此种方法也能起效,当然这是不得而为之,属于亡羊补牢。

5、补充更新

可以通过检测 HTTP_USER_AGENT 是否为爬虫/蜘蛛访问,然后直接返回403 状态码屏蔽之。比如:由于api 权限与微博信息隐私保护原因,Xweibo 2.0 版本后禁止搜索引擎收录。

禁止搜索引擎蜘蛛(爬虫)抓取收录网页的方法

评论 6 条 评论内容很精采,有内幕,而且绝对有干货

  1. directadmin授权 2017年01月17日 10:52  @回复  Δ-49楼 回复

    禁止搜索引擎蜘蛛(爬虫)抓取收录网页,好像不需要写这么多吧,只需要Disallow: /就可以搞定了

  2. 靠谱学生兼职网 2017年01月17日 12:08  @回复  Δ-48楼 回复

    确实如些,我刚建站的,就用它禁止

  3. 分钱榜 2017年01月17日 19:43  @回复  Δ-47楼 回复

    学习了

  4. 1 2017年01月18日 23:44  @回复  Δ-46楼 回复

    今天没事发现一个不错的天猫内部优惠购物群,喜欢天猫购物的可以加下,折扣力度还挺大!
    QQ群;181650666 ​

  5. 李明 2017年02月04日 00:00  @回复  Δ-45楼 回复

    干货,学习了…

  6. 闲情薅羊毛 2017年02月05日 19:22  @回复  Δ-44楼 回复

    学习了,有需要网赚信息的请查

给我留言