看看大站的robots怎么写的-无锡网科信息技术有限公司

做seo的都应该知道robots协议，robots是指“网络爬虫排除标准”（Robots Exclusion Protocol）。小型企业网站内容少，而且很多是静态文件，一般不写robots。对于文件较多，采用动态数据库的网站不妨写一写。

robots文件的语法大致如下：

User-agent: * 这里的*代表的所有的搜索引擎种类，*是一个通配符

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。

Allow: /cgi-bin/　这里定义是允许爬寻cgi-bin目录下面的目录

Allow: /tmp 这里定义是允许爬寻tmp的整个目录

Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

Allow: .gif$ 允许抓取网页和gif格式图片

Sitemap: 网站地图告诉爬虫这个页面是网站地图

1、百度的robots 文件，访问 http://www.baidu.com/robots.txt，文件比较长

User-agent: Baiduspider
Disallow: /baidu
Disallow: /s?
Disallow: /ulink?
Disallow: /link?

User-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?

User-agent: MSNBot
Disallow: /baidu

...............
设定一些目录不能找取，同时对同行的蜘蛛做了限制。

2、淘宝的robots 文件，简单，http://www.taobao.com/robots.txt

User-agent: Baiduspider
Disallow: /

User-agent: baiduspider
Disallow: /

直接屏蔽百度蜘蛛，而且设定了首字母大小写两种形式

3、京东的robots 文件，http://www.jd.com/robots.txt

User-agent: *             
Disallow: /?*     
Disallow: /pop/*.html  
Disallow: /pinpai/*.html?*      
User-agent: EtaoSpider   
Disallow: /

特别限制了e淘的抓取。

robots.txt只是一种规则，需要搜索引擎机器人的配合才行，并不是每个ROBOTS都遵守的。比如以前360就突破该规则，大量抓取百度的数据。

无锡网科信息技术有限公司

无锡网站SEO优化,百度排名优化公司

2014-3-27 7:29:41