注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

西岭雪

有时命运的戏谑就在于,你一直犹豫不决,等到终于下定决心,已经到了谢幕的时间

 
 
 

日志

 
 
关于我

在虚拟的网络中,我们与缘分同行,没有擦肩 ,却留下瞬间的惊喜 ,没有见面,却在心中留存一个身影 不知对方姓甚名谁却会淡淡的牵挂默默的关注

网易考拉推荐

robots.txt文件里面怎样屏蔽蜘蛛  

2011-04-16 15:32:06|  分类: 专业知识 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

robots.txt文件,是每个网站都可以用来跟,遵循robots协议的搜索引擎蜘蛛,进行对话的一段代码。

我们先来看一个列子,让搜索引擎抓取所有的内容,代码如下:

User-agent: *
Allow: /
其中User-agent后面跟的是蜘蛛的名字,如果是所有的蜘蛛都遵守的话,那么就可以用*来代替所有的蜘蛛,如果只是针对某一蜘蛛的话,
那么只需要列出来这个蜘蛛的名字即可。如果不想让蜘蛛来爬取,那么只需要将Allow修改为Disallow,禁止爬取即可,/后面跟的内容就是
禁止或允许爬取的内容。

而有时候蜘蛛爬取过于频繁,那么我们需要添加Crawl-delay这个代码,他的意思是告诉蜘蛛延时多少秒以后再来爬取,我们可以看下实例:

User-agent: *
Crawl-delay: 500

 

前面的内容都一样,不同的是Crawl-delay后面只能跟数字,而且只能是正整数。

我们常用的代码还包括:User-agent、Disallow、Allow以及Crawl-delay等。

 

其实最好的办法你还是尝试下robots.txt文件的设置,在网站的robots.txt文件中加上如下内容:
以百度蜘蛛为例

User-agent: Baiduspider
Disallow: /

  这种方法如果不能完全屏蔽百度的爬虫,也就是蜘蛛要是不遵守robots协议,我们才要想完全屏蔽百度的爬虫,需要在.htaccess中加入一些语句才可以,下面介绍两种方法。

  方法1:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F]

  方法2:

SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot


Order Allow,Deny
Allow from all
  评论这张
 
阅读(731)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017