seo工作者應(yīng)該不陌生,robots.txt文件是每一個搜索引擎蜘蛛到你的網(wǎng)站之后要尋找和訪問的第一個文件,robots.txt是你對搜索
引擎制定的一個如何索引你的網(wǎng)站的規(guī)則。通過該文件,搜索引擎就可以知道在你的網(wǎng)站中哪些文件是可以被索引的,哪些文件是被拒絕索引的,我們就可以很方便
地控制搜索索引網(wǎng)站內(nèi)容了。
robots.txt文件的作用:
1、屏蔽網(wǎng)站內(nèi)的死鏈接。2、屏蔽搜索引擎蜘蛛抓取站點內(nèi)重復內(nèi)容和頁面。3、阻止搜索引擎索引網(wǎng)站隱私性的內(nèi)容。
因此建立robots.txt文件是很有必要的,網(wǎng)站中重復的內(nèi)容、頁面或者404信息過多,搜索引擎蜘蛛就會認為該網(wǎng)站價值較低,從而降低對該網(wǎng)站的“印象分”,這就是我們經(jīng)常聽到的“降低權(quán)重”,這樣網(wǎng)站的排名就不好了。
robots.txt文件需要注意的最大問題是:必須放置在一個站點的根目錄下,而且文件名必須全部小寫。
robots.txt文件的基本語法只有兩條,第一條是:User-agent,即搜索引擎蜘蛛的名稱;第二條是:Disallow,即要攔截的部分。
下面我們看一下撰寫基本的robots.txt文件所需要知道的一些語法和作用。
(1),允許所有的搜索引擎訪問網(wǎng)站的所有部分或者建立一個空白的文本文檔,命名為robots.txt。
User-agent:*Disallow:或者User-agent:*Allow:/
(2),禁止所有搜索引擎訪問網(wǎng)站的所有部分。
User-agent:*Disallow:/
(3),禁止百度索引你的網(wǎng)站。
User-agent:BaiduspiderDisallow:/
(4),禁止Google索引你的網(wǎng)站。
User-agent:GooglebotDisallow:/
(5),禁止除百度以外的一切搜索引擎索引你的網(wǎng)站。
User-agent:BaiduspiderDisallow:User-agent:*Disallow:/
(6),禁止除Google以外的一切搜索引擎索引你的網(wǎng)站。
User-agent:GooglebotDisallow:User-agent:*Disallow:/
(7),禁止和允許搜索引擎訪問某個目錄,如:禁止訪問admin目錄;允許訪問images目錄。
User-agent:*Disallow:/admin/Allow:/images/
(8),禁止和允許搜索引擎訪問某個后綴,如:禁止訪問admin目錄下所有php文件;允許訪問asp文件。
User-agent:*Disallow:/admin/*.php$Allow:/admin/*.asp$
(9),禁止索引網(wǎng)站中所有的動態(tài)頁面(這里限制的是有“?”的域名,如:index.php?id=8)。
User-agent:*Disallow:/*?*
