« 上一篇下一篇 »

看看大站的robots怎么写的

   做seo的都应该知道robots协议,robots是指“网络爬虫排除标准”(Robots Exclusion Protocol)。小型企业网站内容少,而且很多是静态文件,一般不写robots。对于文件较多,采用动态数据库的网站不妨写一写。

  robots文件的语法大致如下:

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。

Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录

Allow: /tmp 这里定义是允许爬寻tmp的整个目录

Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

Allow: .gif$ 允许抓取网页和gif格式图片

Sitemap: 网站地图 告诉爬虫这个页面是网站地图


1、百度的robots 文件 ,访问 http://www.baidu.com/robots.txt文件比较长

User-agent: Baiduspider
Disallow: /baidu
Disallow: /s?
Disallow: /ulink?
Disallow: /link?

User-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?

User-agent: MSNBot
Disallow: /baidu

...............
设定一些目录不能找取,同时对同行的蜘蛛做了限制。

2、淘宝的robots 文件,简单,http://www.taobao.com/robots.txt

User-agent: Baiduspider
Disallow: /

User-agent: baiduspider
Disallow: /

直接屏蔽百度蜘蛛,而且设定了首字母大小写两种形式

3、京东的robots 文件,http://www.jd.com/robots.txt

User-agent: *             
Disallow: /?*     
Disallow: /pop/*.html  
Disallow: /pinpai/*.html?*      
User-agent: EtaoSpider   
Disallow: /

特别限制了e淘的抓取。

robots.txt只是一种规则,需要搜索引擎机器人的配合才行,并不是每个ROBOTS都遵守的。比如以前360就突破该规则,大量抓取百度的数据。