工作室注册登录标签云赞助光荣榜

当前位置:首页 > 全栈分享 > 前端乱炖 > 正文

站长必知:各搜索引擎的爬虫UA和禁止抓取的robots写法

发布时间:2018-11-28 00:20:49作者:魏义齐阅读:()

本文为博主原创文章,未经博主允许不得转载。

为什么要写这篇文章呢,这都源自神马这个大傻货对phpcms网站动态链接的抓取,抓取的不是正常的动态链接但还能访问网站的文章。

虽然神马只做移动端,但一开始我还不愿放弃神马的这点流量,一天一两个有比没有强,但是问题来了,比如动态链接index.php?m=content&c=index&a=show&catid=1&id=1,神马抓取的是index.php?a=show&c=index&catid=1&id=1&m=content,依然可以访问文章,一开始我还做做301跳转,可是天天做301跳转就很操蛋了,好吧,你不好好抓取我就把你彻底屏蔽,如果你遵守robots协议的话。

禁止神马抓取全站:
  1. User-agent: Yisouspider 
  2. Disallow: / 
这个在神马站长平台里可以看到,禁止抓取特定目录所有搜索引擎写法都一样,在这不单提神马的。

搜狗是比较流氓的,也就它不声明自家的蜘蛛程序:
搜狗的蜘蛛到底是啥
禁止抓取全站各搜索引擎的写法都一样,我只罗列出各搜索引擎的爬虫:
 
百度:baiduspider
360:360Spider
谷歌:Googlebot
bing:bingbot

禁止所有蜘蛛爬虫抓取某一个页面的写法:
<meta name="robots" content="noindex,nofollow" /> 
禁止某一个蜘蛛爬虫抓取某一个页面的写法把name里面的robots改为具体的爬虫名称即可。

更多特殊的禁止抓取方式,大家可访问我之前的文章“盘点竞价手机网页对meta标签的特殊需求”并结合本文了解。

对于不遵守robots规则的爬虫,可以用.htaccess文件来屏蔽它,比如百度:
RewriteEngine on 
RewriteCond %{HTTP_USER_AGENT} ^.*Baiduspider.* [NC] 
RewriteRule .* - [F]
如果是Apache服务器,可以修改配置文件httpd.conf:
<Directory "/"> 
... 
SetEnvIfNoCase User-Agent ^.*Baiduspider.* bad_bot 
Order Allow,Deny 
Allow from all 
Deny from env=bad_bot 
... 
</Directory> 
如果是Nginx服务器,可以修改配置文件nginx.conf:
Server{ 
... 
  location / { 
    if ($http_user_agent !~ Baiduspider) { 
      return 403; 
    } 
  } 
... 
} 

本文标签:,您可以阅读与「」相关的所有文章

魏义齐全栈技术交流:魏义齐全栈技术交流

相关阅读

    无相关信息

上一篇:利用编辑器源码功能给文章添加视频的方法(其它cms通用)下一篇:长文:让你少折腾至少一年的个人网站建站经验

原创不易,您的赞助就是博主更新的动力!

赞助本站可在赞助光荣榜留下外链信息,支付宝扫此二维码可领红包

工作室注册登录标签云赞助光荣榜

最新会员
  • weiyiqi