「抓取錯誤」是 Google網站管理員工具(Webmaster Tools)中最受歡迎的工具之一。它可以幫助你檢查錯誤的鏈接,不僅僅是URL鏈接,還包行DNS解析失敗、服務器鏈接、robots.txt 文件等問題,幾乎所有網站都會出現抓取錯誤。
' u9 ]( W3 w& N0 T( ?1 K. r3 o! X/ R
網站站長工具將錯誤分為兩類:網站錯誤(site errors)和鏈接地址錯誤(URL errors)。如果在一個網站上出現多個抓取錯誤,那麼你的網站信任度會下降,甚至會影響到排名,當然這工具對於百度優化同樣有效。那麼應當如何解決Google網站管理員工具的抓取錯誤呢。" ^+ e% C: O3 g. Z" ^
$ k, d% J9 y: f( B, H
通過Googlebot抓取的錯誤分類就看知道是什麼導致抓取錯誤的原因了。% G) {1 T/ G B
3 H$ P+ _3 g# V9 @4 S4 p
一、HTTP的錯誤/ p8 G9 R9 l$ a( @* h! a! G' |8 e
5 c6 [, ]3 q) t) r: U# i) R 當一個網站上的網頁(例如,當用戶在瀏覽器中訪問您的網頁或Googlebot抓取頁面時)到您的服務器發出請求,服務器返回HTTP狀態碼響應請求。9 r. d) h( f3 b
- X. p( a7 Q, e
如果出現403狀態,可以不用理睬,這表明是你的主機阻止了Googlebot抓取。對於所有HTTP狀態碼的列表文件,可以參考Google HTTP狀態碼幫助頁面。
2 i8 q4 W' [) _: M. j F0 w" P- ?& g% ~9 L( L2 j1 n# ?4 S5 `
二、Sitemap中的錯誤
! i& ^- x8 P, ]. q
$ g! T' M- q0 r7 z: ~+ A1 N Sitemap錯誤往往會造成404錯誤頁面,或在當前地圖返回一個404錯誤頁面,如果出現404錯誤頁面請檢查Sitemap中所有的鏈接,
7 q" `1 K# r3 L( i9 {5 W' N( a# o: M5 P6 ~' k+ K
Google會不斷抓取你已經刪除的Sitemap,這點很鬱悶,但也有辦法解決:確保舊的Sitemap已經在管理員工具中被刪除。如果不想被抓取,確保舊Sitemap出現404或者重新定向到新的Sitemap。6 n$ ~4 l# G( e/ @. w' c0 B
( t# }' \' j- e) u! T 來自Google員工Susan Moskwa解釋道:
# o% ?8 K+ d4 \/ ]) Y5 i: U+ I$ ?7 c% t$ h. ~- `& F$ a/ `
阻止Googlebot的爬行,最好的辦法是使這些網址(例如舊的sitemaps)出現404,當我們看到一個URL多次出現404後,Googlebot會停止爬行。, H! m6 E& F; b6 _9 n' w
) m% W$ P( j7 Q5 l
三、重定向錯誤
/ q( |5 t7 X+ h, Y: \
, L1 g) ~9 z) f2 Y 有些錯誤是因為301從定向引起的,執行重定向後要注意什麼:
+ T! c7 ?4 s* Q, ~" j9 }9 ]' d/ k8 Z! G: y/ P8 P$ @
1:確保他們返回到正確的HTTP狀態碼。
/ i' [7 j- [/ G
& k) Z0 `& m& } 2:確保沒有任何循環重定向。
/ N' `9 U4 Z+ {( g- i2 H9 U3 m
3:確保重定向指向有效的網頁,而不是404頁,或其他錯誤頁,如503(服務器錯誤)或403(禁止抓取)1 \: B# X3 u# I) m: j; Q' o
. p3 G3 f. b6 I& Y8 y+ A
4:確保重定向不是指向一個空頁面。
' U- V2 v+ t. v; R' l2 {( F. E& h# R6 ^$ T6 {! h( ?
四、404錯誤) U+ W ~) x! C4 J
& U7 h" R2 ~* i
404錯誤可能會出現在以下幾個方面:3 g/ ?8 M( l) f U) l7 Y7 D d
0 g1 D! R, I/ R% {3 e6 ^& l [/ l 1:刪除了網站上的網頁;8 L2 I7 k' H! ?' x) _, O* v- Z
: K: E7 i# s+ w% |! a9 G1 k9 D 2:改變了網頁的名稱;1 ^$ f+ h- f. c1 U
& Z! `9 a' A* A" _ 4:鏈接到了一個不存在的頁面;
5 k6 t3 X: P. N m: t# J* i& D v0 S. R2 n* A" w2 i* n
5:其他網站鏈接到你網站上一個不存在的頁面;
0 Z1 B2 A- D- M4 p5 h
; M- ^" P) c" ^# a1 G8 Z 6:網站遷移到一個新的域名不完全匹配的網站。& F% b: X4 f! G4 n' f8 ?8 C
: z" y4 x6 y, K+ g 五、受robots.txt限制
9 I# e. E4 B6 n c8 S, _1 M) D) r7 L# f; {& P
還有一個原因是robots.txt文件阻止了Googlebot的抓取,如果出現大量抓取錯誤,第一步應該檢查robots.txt+ S6 {1 G! k9 p
. D$ X, `+ l8 q& Z; O+ v( }. ]
六、軟404錯誤
) D5 l% Y: R! c2 [9 L: A9 A3 K" j' C/ r- P
通常情況下,當有人請求的頁面不存在,服務器將返回一個404(未找到)錯誤。除了在響應請求的頁面不存在返回404代碼,服務器也將顯示一個404頁。 這可能是一個標準的「未找到文件」的消息,或旨在提供更多信息的用戶,它可能是一個自定義頁面。 頁的內容是由服務器返回的HTTP響應完全無關。僅僅因為一個頁面顯示404文件未找到消息並不意味著它是一個404頁。
- W4 H: ?& G' P5 W; T4 @- j
0 c' b6 z# K- j: L9 p# d; H七、超時9 r; A* |* S- N% @/ Q
) q/ A9 H7 P/ S4 E9 l7 `6 {7 r
網站超時也是出現抓取錯誤的原因之一,如果出現超時現象,Googlebot會停止抓取。超時的錯誤類型有:0 W1 J' t+ l# w, O+ `6 u5 y
' H; i0 Z+ k, L
1:DNS超時,可以使用Nslookup 命令檢測DNS,出現DNS超時最大的因素是域名服務商的DNS服務器不穩定。
3 Y8 L% b4 @7 R4 {' O2 l% A3 {8 a% E" u1 x/ q4 S
2:網址超時,在某一個特定頁面,而不是整個域的錯誤。( Q$ |5 \, }0 S5 X" L" S+ E( q
! G% C; b9 s, `# {& m 3:robots.txt超時,如果你網站有robots.txt,但服務器超時,Googlebot會假定該文件不存在。
1 C# c' m5 V* b, K4 d( _0 V" w' N0 w5 ?6 P
4:動態網頁的響應時間過長而造成網頁載入時間過長。 |
|