工作室注册登录标签云赞助光荣榜

当前位置:首页 > 全栈分享 > 前端乱炖 > 正文

站长必知:各搜索引擎的爬虫UA和禁止抓取的robots写法

发布时间:2018-11-28 00:20:49作者:魏义齐阅读:()评论:

本文为博主原创文章,未经博主允许不得转载。

为什么要写这篇文章呢,这都源自神马这个大傻货对phpcms网站动态链接的抓取,抓取的不是正常的动态链接但还能访问网站的文章。

虽然神马只做移动端,但一开始我还不愿放弃神马的这点流量,一天一两个有比没有强,但是问题来了,比如动态链接index.php?m=content&c=index&a=show&catid=1&id=1,神马抓取的是index.php?a=show&c=index&catid=1&id=1&m=content,依然可以访问文章,一开始我还做做301跳转,可是天天做301跳转就很操蛋了,好吧,你不好好抓取我就把你彻底屏蔽,如果你遵守robots协议的话。

禁止神马抓取全站:

  1. User-agent: Yisouspider 
  2. Disallow: / 

这个在神马站长平台里可以看到,禁止抓取特定目录所有搜索引擎写法都一样,在这不单提神马的。

搜狗是比较流氓的,也就它不声明自家的蜘蛛程序:

搜狗的蜘蛛到底是啥

禁止抓取全站各搜索引擎的写法都一样,我只罗列出各搜索引擎的爬虫:

百度:baiduspider;360:360Spider;谷歌:Googlebot;bing:bingbot。

禁止所有蜘蛛爬虫抓取某一个页面的写法:

<meta name="robots" content="noindex,nofollow" /> 

禁止某一个蜘蛛爬虫抓取某一个页面的写法把name里面的robots改为具体的爬虫名称即可。

更多特殊的禁止抓取方式,大家可访问我之前的文章“盘点竞价手机网页对meta标签的特殊需求”并结合本文了解。

对于不遵守robots规则的爬虫,可以用.htaccess文件来屏蔽它,比如百度:

RewriteEngine on 
RewriteCond %{HTTP_USER_AGENT} ^.*Baiduspider.* [NC] 
RewriteRule .* - [F]

如果是Apache服务器,可以修改配置文件httpd.conf:

<Directory "/"> 
... 
SetEnvIfNoCase User-Agent ^.*Baiduspider.* bad_bot 
Order Allow,Deny 
Allow from all 
Deny from env=bad_bot 
... 
</Directory> 

如果是Nginx服务器,可以修改配置文件nginx.conf:

Server{ 
... 
  location / { 
    if ($http_user_agent !~ Baiduspider) { 
      return 403; 
    } 
  } 
... 
} 

本文标签:,您可以阅读与「」相关的所有文章

魏义齐全栈技术交流:魏义齐全栈技术交流

相关阅读

    无相关信息

上一篇:利用编辑器源码功能给文章添加视频的方法(其它cms通用)下一篇:长文:让你少折腾至少一年的个人网站建站经验

原创不易,您的赞助就是博主更新的动力!

赞助请备注,8.88元及以上可在赞助光荣榜留下外链信息。

HashOver畅言云评完全自托管的评论系统

工作室注册登录标签云赞助光荣榜

最新会员
  • 东方星雨
  • deanhan
  • 1264822519
  • aini3311
  • a1051020101
  • weiyiqi