很多時候,一個網站的內容并不希望被搜索引擎抓取并且呈現在搜索結果中,比如一個網站的后臺管理頁面,一些付費頁面,登陸頁面等等.這個時候,大家在進行網站制作的時候,就要學會適當的使用ROBOTS文件或者MATE ROBOTS標簽.
Robots文件的禁止機制
當搜索引擎到了一個站點的時候,會先看看這個網站的根目錄下有沒有ROBOTS.TXT文件,這是一個文本文件.用來告訴搜索引擎這個網站里面的那些內容或者是一些特定的部分不想被搜索引擎抓取,因為很多是對排名沒有意義的頁面或者是一些牽涉到網站隱私的部分.如果沒有發現這個文件或者是里面的內容為空,那么搜索引擎就認為這個網站的所有的東西自己都能夠進行訪問并抓取.
關鍵字段是USER-AGENT: 一般使用*代表所有的搜索引擎,或者也可以指定特定的搜索引擎的蜘蛛.Disallow: 后面寫指定的禁止訪問收錄的文件目錄,如果不寫的話,就表示允許.需要注意的是如果有好幾個目錄,一定要分開寫,每一個不想讓收錄的頁面都使用一個DISALLOW.
目前,絕大部分的搜索引擎都會遵守這個指令,不過被這個指令禁止搜錄的頁面的網址還能夠以URL的形式在搜索的結果當中.要想讓URL也完全的不出現,最好在頁面上使用META ROBOTS標簽.所以,建議各位在做網站建設的朋友們根據需要自己的需要來設置好,千萬不能設置錯了.
META ROBOTS標簽的禁止機制
這個標簽是網頁META標簽的一種,主要作用是讓搜索引擎不要索引這個頁面的內容.meta的名稱是robots,內容是寫不像被搜索跟蹤的內容.比如下面:
NOINDEX:讓搜索引擎不要索引這個頁面;
NOFOLLOW:讓搜索引擎不要追蹤這個頁面上的鏈接;
NOARCHIVE:讓搜索引擎不顯示網頁快照.
這里需要重點強調的是,NOINDEX使用之后,頁面還是能被抓取,不會索引這個頁面,但搜索引擎還是能夠追蹤網頁上的一些鏈接,也能夠通過鏈接傳遞權重.
上海網站制作的小編總結:很多時候,一些行業的朋友由于記錯了或者理解的不夠牢,會出現一些寫錯了的情況,這里提醒大家,千萬要重視啊!
本文由上海藝覺網絡科技有限公司(http://www.gxxmybkw.com)原創編輯轉載請注明。