「抓取錯誤」是 Google網站管理員工具(Webmaster Tools)中最受歡迎的工具之一。它可以幫助你檢查錯誤的鏈接,不僅僅是URL鏈接,還包行DNS解析失敗、服務器鏈接、robots.txt 文件等問題,幾乎所有網站都會出現抓取錯誤。+ X+ l s+ S: y4 Z* ^+ i( b
2 l$ r* o& R- @% v. G$ r- F
網站站長工具將錯誤分為兩類:網站錯誤(site errors)和鏈接地址錯誤(URL errors)。如果在一個網站上出現多個抓取錯誤,那麼你的網站信任度會下降,甚至會影響到排名,當然這工具對於百度優化同樣有效。那麼應當如何解決Google網站管理員工具的抓取錯誤呢。
5 d7 ^. P% M, R- I$ s* U4 Q* K: ~/ w9 {* M2 {
通過Googlebot抓取的錯誤分類就看知道是什麼導致抓取錯誤的原因了。* N8 C; b" l+ z9 M$ n5 `( I
& v5 q& q, Y9 h, l/ ~; h
一、HTTP的錯誤
: a' P* i9 F) _& N, f8 m1 m; j) D
$ z# {, x4 Y3 z6 ^9 r% l 當一個網站上的網頁(例如,當用戶在瀏覽器中訪問您的網頁或Googlebot抓取頁面時)到您的服務器發出請求,服務器返回HTTP狀態碼響應請求。
+ E2 a% p! a* q6 h3 [
9 u2 z' }+ O! d/ {0 r% ~ 如果出現403狀態,可以不用理睬,這表明是你的主機阻止了Googlebot抓取。對於所有HTTP狀態碼的列表文件,可以參考Google HTTP狀態碼幫助頁面。
# p# a) u8 X7 q( U2 _* o
3 n/ `5 M5 y+ ]' n( I 二、Sitemap中的錯誤8 v5 K9 L* @7 v$ i9 D
# D& {. [1 g; \/ L! [& j* S5 K: g
Sitemap錯誤往往會造成404錯誤頁面,或在當前地圖返回一個404錯誤頁面,如果出現404錯誤頁面請檢查Sitemap中所有的鏈接,$ G+ Z! i7 J0 X8 e
4 {2 y3 \3 _1 z" y' U' ?& ?
Google會不斷抓取你已經刪除的Sitemap,這點很鬱悶,但也有辦法解決:確保舊的Sitemap已經在管理員工具中被刪除。如果不想被抓取,確保舊Sitemap出現404或者重新定向到新的Sitemap。
9 k/ n& N: P3 ~ ^$ }( T) y+ ^1 r0 g
來自Google員工Susan Moskwa解釋道:
3 s2 d2 N; Y+ U: W, n( Y5 [3 [4 P, x, C+ [8 Q% r6 \
阻止Googlebot的爬行,最好的辦法是使這些網址(例如舊的sitemaps)出現404,當我們看到一個URL多次出現404後,Googlebot會停止爬行。9 ~0 ^7 e' l3 c
- O# \ p. [/ L6 N, j
三、重定向錯誤9 v% c& _ q9 ^
% w# @: S/ T, y 有些錯誤是因為301從定向引起的,執行重定向後要注意什麼:# W: n- v7 s1 y+ f9 g) ^: p
0 {0 K/ u1 _; e; S' Q
1:確保他們返回到正確的HTTP狀態碼。8 r2 O- G* S% V6 q
. \- A$ M2 @. T
2:確保沒有任何循環重定向。
6 I. l, [4 |7 a
0 z0 i3 k0 j. {( f! O \, } 3:確保重定向指向有效的網頁,而不是404頁,或其他錯誤頁,如503(服務器錯誤)或403(禁止抓取)# O5 ~* M A% k, b8 `( U
) L: j5 R) i4 X
4:確保重定向不是指向一個空頁面。# M. q- L$ C1 `, Y$ S
; s) ]2 E" v3 }/ b+ W" ` 四、404錯誤
" ]5 k9 j# K4 z& N P
7 V5 t3 c( B% ]: A" V 404錯誤可能會出現在以下幾個方面:
1 O, v1 E( B! q
6 A9 M9 ]! Z, l1 f 1:刪除了網站上的網頁;
9 W* s) y: F- a8 B; E: C: i: x5 c! Y% u4 N. l9 n* \' P
2:改變了網頁的名稱;( }( B. R$ U: w9 }, s+ K
1 `1 V- ]& L: n 4:鏈接到了一個不存在的頁面;! t! R. N7 i# [2 C0 `2 A) K# \; @
+ n1 m5 W+ Z, L F1 }; s& e
5:其他網站鏈接到你網站上一個不存在的頁面;: s: k G7 |/ W- J
. |5 E& x7 F" e8 E! J 6:網站遷移到一個新的域名不完全匹配的網站。. E/ y5 i0 Q9 M& f1 G" e
/ |& C. e+ ?8 I0 C 五、受robots.txt限制" c) D% U3 U) |3 X( v9 P( h$ i
9 x( i. P1 v$ V% f! v6 f 還有一個原因是robots.txt文件阻止了Googlebot的抓取,如果出現大量抓取錯誤,第一步應該檢查robots.txt
* g: s4 P1 Q# B& Q, K
) C! D( S# d# R 六、軟404錯誤
j9 Y- h2 ]( G" u2 |: K% p$ j# B# S
通常情況下,當有人請求的頁面不存在,服務器將返回一個404(未找到)錯誤。除了在響應請求的頁面不存在返回404代碼,服務器也將顯示一個404頁。 這可能是一個標準的「未找到文件」的消息,或旨在提供更多信息的用戶,它可能是一個自定義頁面。 頁的內容是由服務器返回的HTTP響應完全無關。僅僅因為一個頁面顯示404文件未找到消息並不意味著它是一個404頁。
' D) P0 Q3 h. f& a1 _+ g. L9 d$ h% w# G) t& a. e# F( W* x7 z3 a
七、超時1 Z$ w3 d# C+ y2 Y7 r3 Q
/ n9 ]$ D+ c: R2 F& p 網站超時也是出現抓取錯誤的原因之一,如果出現超時現象,Googlebot會停止抓取。超時的錯誤類型有:
0 |5 i4 f! Z3 N9 u! l. U. ^
( n( G: C2 x/ }" B( c 1:DNS超時,可以使用Nslookup 命令檢測DNS,出現DNS超時最大的因素是域名服務商的DNS服務器不穩定。
. N, T% `' w0 J" P. {: U: a3 b2 I+ H" @! t. q c
2:網址超時,在某一個特定頁面,而不是整個域的錯誤。
$ q9 B) M8 }' X L5 v: x) _8 `- ~7 l/ O3 i4 `2 s# P2 l
3:robots.txt超時,如果你網站有robots.txt,但服務器超時,Googlebot會假定該文件不存在。
* p& K: ?, j) d& D+ f. l
3 ~9 V' X& t9 i' q) F 4:動態網頁的響應時間過長而造成網頁載入時間過長。 |
|