做seo的都应该知道robots协议,robots是指“网络爬虫排除标准”(Robots Exclusion Protocol)。小型企业网站内容少,而且很多是静态文件,一般不写robots。对于文件较多,采用动态数据库的网站不妨写一写。
robots文件的语法大致如下:
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图
1、百度的robots 文件 ,访问 http://www.baidu.com/robots.txt,文件比较长
User-agent: Baiduspider Disallow: /baidu Disallow: /s? Disallow: /ulink? Disallow: /link? User-agent: Googlebot Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? User-agent: MSNBot Disallow: /baidu
...............
设定一些目录不能找取,同时对同行的蜘蛛做了限制。
2、淘宝的robots 文件,简单,http://www.taobao.com/robots.txt
User-agent: Baiduspider Disallow: / User-agent: baiduspider Disallow: /
直接屏蔽百度蜘蛛,而且设定了首字母大小写两种形式
3、京东的robots 文件,http://www.jd.com/robots.txt
User-agent: * Disallow: /?* Disallow: /pop/*.html Disallow: /pinpai/*.html?* User-agent: EtaoSpider Disallow: /
特别限制了e淘的抓取。
robots.txt只是一种规则,需要搜索引擎机器人的配合才行,并不是每个ROBOTS都遵守的。比如以前360就突破该规则,大量抓取百度的数据。