站长必知：各搜索引擎的爬虫UA和禁止抓取的robots写法

发布时间：2018-11-28 00:20:49作者：魏义齐阅读：()

本文为博主原创文章，未经博主允许不得转载。

为什么要写这篇文章呢，这都源自神马这个大傻货对phpcms网站动态链接的抓取，抓取的不是正常的动态链接但还能访问网站的文章。

虽然神马只做移动端，但一开始我还不愿放弃神马的这点流量，一天一两个有比没有强，但是问题来了，比如动态链接index.php?m=content&c=index&a=show&catid=1&id=1,神马抓取的是index.php?a=show&c=index&catid=1&id=1&m=content，依然可以访问文章，一开始我还做做301跳转，可是天天做301跳转就很操蛋了，好吧，你不好好抓取我就把你彻底屏蔽，如果你遵守robots协议的话。

禁止神马抓取全站：

User-agent: Yisouspider

Disallow: /

这个在神马站长平台里可以看到，禁止抓取特定目录所有搜索引擎写法都一样，在这不单提神马的。

搜狗是比较流氓的，也就它不声明自家的蜘蛛程序：
搜狗的蜘蛛到底是啥

禁止抓取全站各搜索引擎的写法都一样，我只罗列出各搜索引擎的爬虫：

百度：baiduspider
360：360Spider
谷歌：Googlebot
bing：bingbot

禁止所有蜘蛛爬虫抓取某一个页面的写法：

<meta name="robots" content="noindex,nofollow" />

禁止某一个蜘蛛爬虫抓取某一个页面的写法把name里面的robots改为具体的爬虫名称即可。

更多特殊的禁止抓取方式，大家可访问我之前的文章“盘点竞价手机网页对meta标签的特殊需求”并结合本文了解。

对于不遵守robots规则的爬虫，可以用.htaccess文件来屏蔽它，比如百度：

RewriteEngine on 
RewriteCond %{HTTP_USER_AGENT} ^.*Baiduspider.* [NC] 
RewriteRule .* - [F]

如果是Apache服务器，可以修改配置文件httpd.conf：

<Directory "/"> 
... 
SetEnvIfNoCase User-Agent ^.*Baiduspider.* bad_bot 
Order Allow,Deny 
Allow from all 
Deny from env=bad_bot 
... 
</Directory>

如果是Nginx服务器，可以修改配置文件nginx.conf：

Server{ 
... 
  location / { 
    if ($http_user_agent !~ Baiduspider) { 
      return 403; 
    } 
  } 
... 
}

本文标签：，您可以阅读与「」相关的所有文章

魏义齐全栈技术交流：