一、什么是 robots ?
?
robots是站點與spider溝通的重要渠道,站點通過robots文件聲明該網(wǎng)站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。
?
二、robots 格式定義
?
User-agent:用于描述搜索引擎robot的名字。
?
Disallow:用于描述不希望被訪問的一組URL,這個值可以是一條完整的路徑,也可以是路徑的非空前綴。
?
Allow:用于描述希望被訪問的一組URL,與Disallow項相似,這個值可以是一條完整的路徑,也可以是路徑的前綴。
?
三、特殊通配符
?
"*" ? ?匹配0或多個任意字符
"$" ? 匹配行結(jié)束符。
"?" ? 匹配動態(tài)路徑
?
四、使用方法
?
?在本地建立一個 robots.txt 文本文件,把需要設(shè)置的 robot 協(xié)議寫進文本中,然后再把此 robots.txt 文本文件上傳至網(wǎng)站空間根目錄下。
?
五、常用設(shè)置蛛蛛
?
?百度蜘蛛:Baiduspider
谷歌機器人: ?Googlebot
?360好搜: 360spider
?SOSO蜘蛛:Sosospider
有道蜘蛛:YoudaoBot
必應(yīng)蜘蛛:bingbot
?
六、robots的用法舉例
?
1.屏蔽所有搜索引擎
?
User-agent: *?
?Disallow: /
?
注意:英文冒號后面緊接著必須是一個英文格式的“空格”。
?
2.屏蔽百度蛛蛛,允許其它蛛蛛
?
User-agent: Baiduspider
Disallow: / ?
?
User-agent: *
?
3.屏蔽一個文件夾
?
User-agent: *
Disallow: /data/
?
4.屏蔽一個文件夾,但允許訪問此文件夾中的某個文件
?
User-agent: *
Disallow: /data/
Allow: /data/abc.php
?
5.屏蔽文件夾時后面帶 "/" 與不帶 "/" 的區(qū)別
?
例如 "Disallow:/data" ?是禁止robot訪問/data.html、/dataxxx.html、/data/xxx.html,
而 "Disallow:/data/"則禁止robot訪問/data/xxx.html、/data/xxx/ ,而允許訪問/data.html、/dataxxx.html文件。
PS:Allow 是一樣的道理。
?
6.屏蔽動態(tài)路徑
?
User-agent: *
Disallow: /*?*
?
7.指定蛛蛛爬取路徑以 .html 結(jié)尾,后面所有路徑都不再抓取
?
User-agent: *
Disallow: /*.html$
?
8.分別定義百度蛛蛛,和谷歌蛛蛛
?
User-agent: Baiduspider
Disallow: ?/data/
?
User-agent: Googlebot
Disallow: /template/
?
如我網(wǎng)站的 robots 協(xié)議: