「抓取錯誤」是 Google網站管理員工具(Webmaster Tools)中最受歡迎的工具之一。它可以幫助你檢查錯誤的鏈接,不僅僅是URL鏈接,還包行DNS解析失敗、服務器鏈接、robots.txt 文件等問題,幾乎所有網站都會出現抓取錯誤。 Y) w& J3 _- W) P6 p+ O( `; v
i5 `- e% V' m9 {0 l0 K* T 網站站長工具將錯誤分為兩類:網站錯誤(site errors)和鏈接地址錯誤(URL errors)。如果在一個網站上出現多個抓取錯誤,那麼你的網站信任度會下降,甚至會影響到排名,當然這工具對於百度優化同樣有效。那麼應當如何解決Google網站管理員工具的抓取錯誤呢。
) G, ~' {1 t- ]- W
], q7 K p7 [+ E. W" C通過Googlebot抓取的錯誤分類就看知道是什麼導致抓取錯誤的原因了。! G+ E* J E( {9 k
( W: {; N% Q9 e2 P/ Q& l% M 一、HTTP的錯誤; E1 b* Q b( T# d* R: P+ S6 [. i
# c7 o3 c- S( \/ |7 ^
當一個網站上的網頁(例如,當用戶在瀏覽器中訪問您的網頁或Googlebot抓取頁面時)到您的服務器發出請求,服務器返回HTTP狀態碼響應請求。. F( ~& M5 n( ]( d2 @0 _
4 Z5 e) t! l2 ?+ M B 如果出現403狀態,可以不用理睬,這表明是你的主機阻止了Googlebot抓取。對於所有HTTP狀態碼的列表文件,可以參考Google HTTP狀態碼幫助頁面。
0 I7 s5 i) z8 i7 N0 J9 V" @, J5 @" u4 E) s+ u
二、Sitemap中的錯誤
4 t3 x& P/ Y# `: I9 P
0 T& Z; n: Q. L+ o Sitemap錯誤往往會造成404錯誤頁面,或在當前地圖返回一個404錯誤頁面,如果出現404錯誤頁面請檢查Sitemap中所有的鏈接,3 ~( A; c' I0 Z1 r* G1 g. t
! A! ^0 T" R& z7 R7 E) S Google會不斷抓取你已經刪除的Sitemap,這點很鬱悶,但也有辦法解決:確保舊的Sitemap已經在管理員工具中被刪除。如果不想被抓取,確保舊Sitemap出現404或者重新定向到新的Sitemap。
' m0 I, _$ A P4 d; {8 P/ L$ D
) _ H9 w2 Q+ M- A* k+ o 來自Google員工Susan Moskwa解釋道:! c! c: ]: Z7 f) q5 i/ Y4 F* c* z
/ \! Z% a8 K8 G1 ~6 p4 Z N/ }( G
阻止Googlebot的爬行,最好的辦法是使這些網址(例如舊的sitemaps)出現404,當我們看到一個URL多次出現404後,Googlebot會停止爬行。0 T0 k* d) ~- F- w
8 y! \% { n: T! w) y& j
三、重定向錯誤$ F& m2 |8 N1 `2 W
: ^0 z: i* \9 T* X- W6 }: U
有些錯誤是因為301從定向引起的,執行重定向後要注意什麼:
; ^- |& X# k0 G
( K& A6 s+ ]/ e 1:確保他們返回到正確的HTTP狀態碼。* l) f2 |" N+ ~' q. d7 o0 i
7 H+ N. l' B _7 D4 Q$ v
2:確保沒有任何循環重定向。
w) w) r: U5 F7 Y( y! H X
2 C; m0 n+ M+ s0 R& c$ A8 D& W 3:確保重定向指向有效的網頁,而不是404頁,或其他錯誤頁,如503(服務器錯誤)或403(禁止抓取). P' n; O" \9 G5 Y/ l: i
) G! V1 Q$ h; O1 J2 x
4:確保重定向不是指向一個空頁面。- j; y4 N7 G }# E1 g7 P2 Y1 s3 e
. N8 e7 Q6 y8 d$ Y$ u 四、404錯誤/ _; A X* p0 x; `
* v4 f5 o( K7 _) D; w0 X 404錯誤可能會出現在以下幾個方面:- F5 z, |. x6 `8 N
' h& v8 c' K# [$ i
1:刪除了網站上的網頁;
6 L& {2 C6 `$ Q4 Q" n" u+ f$ U" k5 L4 Z9 D" m5 ]
2:改變了網頁的名稱;
% t# x* b$ {2 ~$ S5 |' Q! q
$ i! A( M1 W2 w 4:鏈接到了一個不存在的頁面;
9 ]5 x4 Q2 _- U8 k
' l2 |2 F' P4 p) c. Y* m3 C0 } 5:其他網站鏈接到你網站上一個不存在的頁面;
9 K1 i. c* I5 k6 b6 a+ a* }6 S. a0 r
6:網站遷移到一個新的域名不完全匹配的網站。
8 e- q s/ g, D8 L0 C% |1 G! ?3 z2 l. C+ V: e, b5 B0 o& d5 |
五、受robots.txt限制
# `5 p# M+ L! Y y/ ~; ?# Z( g4 F
! g7 B) @ o, H3 i5 G: T 還有一個原因是robots.txt文件阻止了Googlebot的抓取,如果出現大量抓取錯誤,第一步應該檢查robots.txt
$ O' u. e; d1 ~' F
$ t# x! M" Z4 [( c" v6 H1 G 六、軟404錯誤
+ Q. e2 z* k0 Q# _5 u9 ]! \; E
7 ^" F- m" u; I通常情況下,當有人請求的頁面不存在,服務器將返回一個404(未找到)錯誤。除了在響應請求的頁面不存在返回404代碼,服務器也將顯示一個404頁。 這可能是一個標準的「未找到文件」的消息,或旨在提供更多信息的用戶,它可能是一個自定義頁面。 頁的內容是由服務器返回的HTTP響應完全無關。僅僅因為一個頁面顯示404文件未找到消息並不意味著它是一個404頁。
% y1 {, k3 i; g- j
+ P5 @3 l0 G. i) O七、超時% H4 m* u# O3 P4 N
. s1 S9 H( [5 @% N0 U 網站超時也是出現抓取錯誤的原因之一,如果出現超時現象,Googlebot會停止抓取。超時的錯誤類型有:8 ~; ^3 I5 H( B( X
) k8 V! ~+ a0 Z! ]- m+ H( n$ E 1:DNS超時,可以使用Nslookup 命令檢測DNS,出現DNS超時最大的因素是域名服務商的DNS服務器不穩定。# |/ b% |& G1 R' b* A5 f
# k9 I1 i- r( ?7 B
2:網址超時,在某一個特定頁面,而不是整個域的錯誤。
: S1 _9 [% C) E! o7 f, }) ]- W1 H% e5 Y; ?' p! y% ]
3:robots.txt超時,如果你網站有robots.txt,但服務器超時,Googlebot會假定該文件不存在。
' v5 t6 E0 y; v8 G& T' F
# @) w& {$ f) m) x6 t- B 4:動態網頁的響應時間過長而造成網頁載入時間過長。 |
|