【轉】搜索引擎不會告訴你的關於robots的潛規則

顯示全部樓層 · 發表於 2014-10-14 10:36:31

　　　Robots文件是我們與搜索引擎對話的最重要渠道。

　　為什麼meta信息有這麼多種類，我們卻從來沒有在網頁上看到過它們呢？因為meta標籤的內容在瀏覽器上是不顯示的。絕大部分的meta信息是寫給搜索引擎看的，用於幫助搜索引擎判斷頁面的價值、重要性。

　　作為網頁設計者和搜索引擎交流的一個重要渠道，各種meta標籤提供了從不同角度描述頁面的基礎信息，而機器人在訪問網頁時也會首先讀取這個部分。

關於robots基礎閱讀：

絕大部分 spider 能夠識別的是以下幾種：

　　noindex -【頁面會被抓取，但在被google的後台系統分析完以後會被丟棄，不會進入google的索引排序，對用戶而言也就不會出現在搜索結果中】
　　nofollow -【禁止googlebot追蹤頁面上的一切鏈接（阻止訪問）。（與meta級別的nofollow不同的是， link級別裡的nofollow只會阻止robot追蹤單條鏈接）】
　　noarchive -【禁止在搜索結果中顯示該頁面的快照】
　　nosnippet -【禁止在搜索結果的網頁鏈接下顯示內容摘要，同時阻止搜索引擎產生該頁面的快照】
　　noodp -【在搜索結果的頁面摘要部分屏蔽open directory project對該頁面的描述】
　　none -【等同於同時使用noindex和nofollow兩個參數】
　　robots文件的使用，有很多特別需要注意的，甚至很多知識點甚至搜索引擎本身都沒有給出詳盡的說明或者是使用方法。在參閱了大量的資料和結合自身的一些嘗試，本文將重點說明下，一些在對robots文件進行處理的過程中需要特別注意的潛規則：

一不允許出現多條user-agent的記錄

　　一份「/robots.txt」文檔中不允許出現多條包含「user-agent: *」的記錄（但允許沒有此記錄）。

二- spider名字的大小寫問題

　　大多數搜索引擎的spider在讀取user-agent值的時候都是忽略大小寫，既Googlebot和googlebot應該都能被google識別。但是，我在學習淘寶seo的時候也發現，或許為了保險起見，淘寶的工作人員在自己的「/robots.txt」裡面分別寫了「user-agent: baiduspider」和「user-agent: baiduspider」兩條。（參見：
http://www.taobao.com/robots.txt）

三、allow和disallow的順序

　　大部分情況下，想要兼容所有的機器人，就應當將allow指令放在disallow指令的前面，例如：

Allow: /a/b.html
Disallow: /a/

　　這會阻止對"/a/"內除了"/a/b.html"以外一切內容的檢索，因為後者是優先匹配成功的。雖然對於google和百度來說，先後順序並不重要。但是不排除會導致其他搜索引擎出現抓取問題。

四、allow與disallow的角力

　　如果allow指令中的地址同disallow指令中的地址相比具有相同或更多字符（意味著allow指令所描述的地址更「深」、更「具體」）的話，雖然disallow指令也能匹配，但allow指令仍然會「獲勝」（這樣就達到開放子文件夾的目的了，同時沒被allow的部分依然不會被檢索）。

五、反斜槓「/」的意義

　　反斜槓「/」表示禁止搜索引擎進入該目錄。

User-agent: spider
Disallow: /a

　　對這樣的記錄機器人該怎麼反應？按照res標準，機器人會將名為「a」的文件和名為「a」的目錄都disallow。當然，比較符合邏輯切清晰的寫法是使用「/」來標識所聲明的路徑：

Disallow: /a/

　　注意不要忘記「a」前面的「/」

六、在指示行末尾加注的問題

　　在「/robots.txt」文件中，凡以「#」開頭的行，均被視為註解內容，這和unix中的慣例是一樣的。例如：

Disallow: /cgi-bin/ # this bans robots from our cgi-bin

七、盡量不要在一行的前面出現空格，如「 disallow: /」《很多人非常不小心，空格就沒了》

　　Res標準並未對這種格式予以特別說明，但和上面一個問題一樣，可能導致某些機器人無法正確解讀。

八.文件目錄區分大小寫（這個或許是困惑大多數人的）

　　雖然res標準忽略大小寫(case insensitive)，但目錄和文件名卻是大小寫敏感的。所以對於"user-agent"和"disallow"指令，用大小寫都是可以的。但對於所聲明的目錄或文件名卻一定要注意大小寫的問題。例如：

Disallow: /abc.htm
　　會攔截「http://www.example.com/abc.htm」
　　卻會允許http://www.example.com/Abc.htm

　　所以在IIS服務器可能出現的諸多大小寫目錄問題，可以通過此方法得到圓滿解決。

九、如果頁面中包含了多個同類型meta標籤，spider會累加內容取值

　　對於下面兩條語句來說：
<meta name="robots" content="noindex" />
<meta name="robots" content="nofollow" />

　　搜索引擎將會理解成：
<meta name="robots" content="noindex, nofollow" />

十當內容取值衝突的時候，google和百度等大多數搜索引擎會採納限制性最強的參數

　　例如，如果頁面中包含如下meta標籤：
<meta name="robots" content="noindex" />
<meta name="robots" content="index" />
　　Spider會服從noindex的取值。

十一.如果你既用了robots.txt文件又用了robots meta標籤

　　當二者出現衝突，googlebot會服從其中限制較嚴的規則

　　如果你在robots.txt中阻止了對一個頁面的檢索，googlebot永遠不會爬到這個頁面，因此也根本不會讀到這個頁面上的meta標籤。如果你在robots.txt裡面允許了對一個頁面的檢索，卻在meta標籤中禁止了這一行為，googlebot會到達這個頁面，在讀到meta標籤後終止進一步的檢索行為。

　　當然關於robots文件的使用，還有更多等待大家的挖掘和分享。

顯示全部樓層 · 發表於 2014-10-16 12:11:23

信息量好大，慢慢消化。

顯示全部樓層 · 發表於 2014-10-22 04:05:01

:lol:lol:lol

		自動登錄	找回密碼
密碼			免费注册

【轉】搜索引擎不會告訴你的關於robots的潛規則

瀏覽過的版塊