站长必知:各搜索引擎的爬虫UA和禁止抓取的robots写法
发布时间:2018-11-28 00:20:49作者:魏义齐阅读:()
为什么要写这篇文章呢,这都源自神马这个大傻货对phpcms网站动态链接的抓取,抓取的不是正常的动态链接但还能访问网站的文章。
虽然神马只做移动端,但一开始我还不愿放弃神马的这点流量,一天一两个有比没有强,但是问题来了,比如动态链接index.php?m=content&c=index&a=show&catid=1&id=1,神马抓取的是index.php?a=show&c=index&catid=1&id=1&m=content,依然可以访问文章,一开始我还做做301跳转,可是天天做301跳转就很操蛋了,好吧,你不好好抓取我就把你彻底屏蔽,如果你遵守robots协议的话。
禁止神马抓取全站:
虽然神马只做移动端,但一开始我还不愿放弃神马的这点流量,一天一两个有比没有强,但是问题来了,比如动态链接index.php?m=content&c=index&a=show&catid=1&id=1,神马抓取的是index.php?a=show&c=index&catid=1&id=1&m=content,依然可以访问文章,一开始我还做做301跳转,可是天天做301跳转就很操蛋了,好吧,你不好好抓取我就把你彻底屏蔽,如果你遵守robots协议的话。
禁止神马抓取全站:
- User-agent: Yisouspider
- Disallow: /
这个在神马站长平台里可以看到,禁止抓取特定目录所有搜索引擎写法都一样,在这不单提神马的。
搜狗是比较流氓的,也就它不声明自家的蜘蛛程序:

禁止抓取全站各搜索引擎的写法都一样,我只罗列出各搜索引擎的爬虫:
搜狗是比较流氓的,也就它不声明自家的蜘蛛程序:

禁止抓取全站各搜索引擎的写法都一样,我只罗列出各搜索引擎的爬虫:
百度:baiduspider
360:360Spider
谷歌:Googlebot
bing:bingbot
禁止所有蜘蛛爬虫抓取某一个页面的写法:
更多特殊的禁止抓取方式,大家可访问我之前的文章“盘点竞价手机网页对meta标签的特殊需求”并结合本文了解。
对于不遵守robots规则的爬虫,可以用.htaccess文件来屏蔽它,比如百度:
360:360Spider
谷歌:Googlebot
bing:bingbot
禁止所有蜘蛛爬虫抓取某一个页面的写法:
<meta name="robots" content="noindex,nofollow" />
禁止某一个蜘蛛爬虫抓取某一个页面的写法把name里面的robots改为具体的爬虫名称即可。更多特殊的禁止抓取方式,大家可访问我之前的文章“盘点竞价手机网页对meta标签的特殊需求”并结合本文了解。
对于不遵守robots规则的爬虫,可以用.htaccess文件来屏蔽它,比如百度:
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*Baiduspider.* [NC]
RewriteRule .* - [F]
如果是Apache服务器,可以修改配置文件httpd.conf:
<Directory "/">
...
SetEnvIfNoCase User-Agent ^.*Baiduspider.* bad_bot
Order Allow,Deny
Allow from all
Deny from env=bad_bot
...
</Directory>
如果是Nginx服务器,可以修改配置文件nginx.conf:
Server{
...
location / {
if ($http_user_agent !~ Baiduspider) {
return 403;
}
}
...
}
相关阅读
-
无相关信息
上一篇:利用编辑器源码功能给文章添加视频的方法(其它cms通用)下一篇:长文:让你少折腾至少一年的个人网站建站经验
赞助本站
原创不易,您的赞助就是博主更新的动力!

赞助本站可在赞助光荣榜留下外链信息,支付宝扫此二维码可领红包
最新会员
-
weiyiqi
- 微信内置浏览器如何清除缓存和加速打开网页(3891)
- 封禁ip的两种方法(2364)
- 彻底解决win10文件夹右上角出现箭头的方法(1855)
- 前端工程师必须要看的五个个人技术博客(1751)
- windows10系统下如何彻底卸载phpstudy(1553)
- 网站被镜像怎么办(1139)
- 建立带点的文件夹和文件的几个方法(1123)
- 网站被莫名其妙植入广告怎么办(1069)
- 站长必知:各搜索引擎的爬虫UA和禁止抓取的robots写法(1065)
- Dreamweaver cc2017预览文件时地址栏显示的不是自己的文件路径如何解决(965)
- “<”或“>”被转译是什么原因(2021-08-10)
- 实践出真知,解决百度统计广告该用何种方法(2021-08-05)
- 畅言云评的深度研究使用(2021-06-29)
- 阿里云、西部数码双11新用户优惠对比分析及购买攻略(2019-11-09)
- 使用vpn时,使用百度云加速的网站不能访问的两种解决方法及注意事项(2019-10-31)