1、Google PageRank(網頁級別)介紹
9 j/ W5 `9 ]* k7 P: F( U$ U8 T9 l* I Google的核心軟件稱為 PageRank(網頁級別),這是由Google創始人 Larry Page 和 Sergey Brin 在斯坦福大學開發出的一套用於網頁評級的系統,網頁級別(PageRank)是所有Google網絡搜索工具的基礎。( ]+ j$ H: u# k% Q: p2 |
作為組織管理工具,網頁級別(PageRank)利用了互聯網獨特的民主特性及其巨大的鏈接結構。實質上,當從網頁 A 鏈接到網頁 B 時,Google 就認為"網頁 A 投了網頁 B 一票"。Google 根據網頁的得票數評定其重要性。然而,除了考慮網頁得票數(即鏈接)的純數量之外,Google 還要分析投票的網頁。"重要"的網頁所投出的票就會有更高的權重,並且有助於提高其它網頁的"重要性"。重要的、高質量的網頁會獲得較高的網頁級別。Google 在排列其搜索結果時,都會考慮每個網頁的級別(PageRank)。當然,如果不能滿足您的查詢要求,網頁級別(PageRank)再高對您來說也毫無意義。因此,Google 將網頁級別(PageRank)與完善的文本匹配技術結合在一起,為您找到最重要、最有用的網頁。Google 所關注的遠不只是關鍵詞在網頁上出現的次數,它還對該網頁的內容(以及該網頁所鏈接的內容)進行全面檢查,從而確定該網頁是否滿足您的查詢要求。Google 以其複雜而全自動的搜索方法排除了任何人為因素對搜索結果的影響。雖然Google也在搜索結果旁刊登相關廣告,但沒人能花錢買到更高的網頁級別(PageRank),從而保證了網頁排名的客觀公正。
# c+ U5 s" ^" B! V* p! `4 `5 f) U
" E9 W7 y) |) Bgoogle自己對於pagerank的解釋如下:
2 j$ _* _' R+ N, D. w4 ~( I$ EPageRank Explained
; H% t. x9 ~$ G4 s5 @0 O; ~PageRank relies on the uniquely democratic nature of the web by using its vast link structure as an indicator of an individual page's value.In essence, Google interprets a link from page A to page B as a vote, by page A, for page B. But, Google looks at more than the sheer volume of votes, or links a page receives; it also analyzes the page that casts the vote. Votes cast by pages that are themselves "important" weigh more heavily and help to make other pages "important." T# C" W4 D J# Y
Important, high-quality sites receive a higher PageRank, which Google remembers each time it conducts a search. Of course, important pages mean nothing to you if they don't match your query. So, Google combines PageRank with sophisticated text-matching techniques to find pages that are both important and relevant to your search. Google goes far beyond the number of times a term appears on a page and examines all aspects of the page's content (and the content of the pages linking to it) to determine if it's a good match for your query. 6 o; r8 a" ^ D& n' D# ^
4 p, ~/ k& [; F) v- n
返回頂端% y F/ B" u+ k, B2 ~0 l3 i
' ^0 B/ W: I" f
2、PageRank算法1
/ r8 D, M8 B+ MPR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))
9 _7 M% |3 ?( M' z其中:PR(A):頁面A的網頁級別, # n7 C' Z3 }' k, j5 t* r! [
PR(Ti):頁面Ti的網頁級別,頁面Ti鏈向頁面A,
* H% j8 s& Y; Q4 q+ a3 EC(Ti):頁面Ti鏈出的鏈接數量,0 J5 J: B8 H3 `" G( y
d:阻尼係數,取值在0-1之間. 8 m' Q1 |3 Y- O) Y* X$ y: ^
9 h% C. v8 b: u+ z由此可見,1)這個算法不以站點排序,頁面網頁級別由一個個獨立的頁面決定;2)頁面的網頁級別由鏈向它的頁面的網頁級別決定,但每個鏈入頁面的貢獻的值是不同的。如果Ti頁面中鏈出越多,它對當前頁面A的貢獻就越小。A的鏈入頁面越多,其網頁級別也越高;3)阻尼係數的使用,減少了其它頁面對當前頁面A的排序貢獻。 $ ]7 \! f* l4 \/ u$ ^7 T+ a
4 ]. B$ U/ L, G- f5 f
返回頂端 # U) j, l" [9 K
1 L5 ]" H2 h# n
3、隨機衝浪模型- ]. L0 y6 |( r3 G1 w. u
Lawrence Page 和 Sergey Brin 提出了用戶行為的隨機衝浪模型,來解釋上述算法。他們把用戶點擊鏈接的行為,視為一種不關心內容的隨機行為。而用戶點擊頁面內的鏈接的概率,完全由頁面上鏈接數量的多少決定的,這也是上面PR(Ti)/C(Ti)的原因。一個頁面通過隨機衝浪到達的概率就是鏈入它的別的頁面上的鏈接的被點擊概率的和。阻尼係數d的引入,是因為用戶不可能無限的點擊鏈接,常常因勞累而隨機跳入另一個頁面。d可以視為用戶無限點擊下去的概率,(1-d)則就是頁面本身所具有的網頁級別。
5 S4 t* A7 F: ~# N) o$ p/ C0 f6 f
7 u* \5 ^/ U. `! B5 Q; m1 b/ P. W返回頂端
6 V: C: Q+ i- M5 `9 v& T8 @ A
5 k4 q! T2 I8 a$ l0 }9 J8 _5 y/ S5 G4、PageRank算法2(對算法1的修訂)
* m% A; B( N2 v! H4 JPR(A) = (1-d) / N + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) % O" S1 I, o' B
其中N是互聯網上所有網頁的數量
" q7 T$ o" c1 `7 m1 U- O6 Y4 u! s3 S- M- k+ O
由此,所有頁面的網頁級別形成的一個概率分佈,所有頁面的網頁級別之和是1。在算法1中,隨機衝浪訪問某個頁面的概率由互聯網的總頁數決定,在算法2中,網頁級別是一個頁面被隨機訪問的期望值。
2 T9 I7 g2 K3 l3 U, Z 以下講解,皆基於算法1,主要是計算簡單,因為不用考慮N的值。 7 c, M7 \, X3 K
, @! j) ^ R/ {8 `* n9 o0 e返回頂端
" D( [, U+ w$ ^ I/ H- D' q$ w+ Q0 h- b* b" i1 o
5、PageRank的特性2 \, k4 Z- o( T/ @6 p: e, x0 X
有頁面的網頁級別之和等於互聯網的總頁數。在網頁數比較少的情況下,網頁級別方程可以解出,而面對互聯網上成億的網頁,再解方程是不可能的。
- M# x9 c/ n+ a5 A6 {+ r; s& W/ p4 ~8 G2 n% _1 n6 j; ?
9 K; s6 | m! y) W+ `0 ]. X& M
此處設阻尼係數為0.5,雖然Lawrence Page 和 Sergey Brin在實際將其設為0.85.$ T) T0 n9 T: h# x/ C& o
PR(A) = 0.5 + 0.5 PR(C)
3 D' d, U& Q0 zPR(B) = 0.5 + 0.5 (PR(A) / 2)% J( y# D8 b& Q
PR(C) = 0.5 + 0.5 (PR(A) / 2 + PR(B))8 Y1 s8 l* q z/ l* A0 ?! M. a
解得:
- ?- \5 O: M {8 j4 G' a/ {' PPR(A) = 14/13 = 1.07692308$ h+ U; s, i+ G F/ `! S6 W
PR(B) = 10/13 = 0.769230777 d7 i v# K1 [: x
PR(C) = 15/13 = 1.15384615
" r$ L* N6 i* z3 V有:
3 p9 S6 z7 N' j4 [2 o" aPR(A)+PR(B)+PR(C)=3
& z& G4 v8 e/ M
+ N8 C6 D6 L0 j" P9 ]返回頂端7 Y! o7 x v; j4 b% X" @
: ~; e$ V# @" C
6、迭代計算pagerank
4 g f4 {5 P* Y2 W* B, N8 J6 } Google採用一種近似的迭代的方法計算網頁的網頁級別的,也就是先給每個網頁一個初始值,然後利用上面的公式,循環進行有限次運算得到近似的網頁級別。根據Lawrence Page 和 Sergey Brin公開發表的文章,他們實際需要進行100次迭代才能得到整個互聯網的滿意的網頁級別值,這兒的例子只用了10多次就可以了。在迭代的過程中,每個網頁的網頁級別的和是收斂於整個網絡的頁面數的。所以,每個頁面的平均網頁級別是1,實際上的值在(1-d)和(dN+(1-d))之間。, O2 P" t( ]& d- W. `. m
' ]5 v$ {" R' l; j4 O; k8 F5 g
# \6 g) t* V* m- D迭代次數/ j) i, q3 G, m) W: y. @" h! z* L3 D4 H
PR(A)7 L% R, n+ @/ A. j0 Z
PR(B): R. R) W! k9 s
PR(C)
4 a) D4 e1 `6 m* _" W
% u3 Z% i4 n# f: h5 ~0% a+ H( V# u5 o
14 o0 {; O- H- d' ?8 M; o
1
. M3 N8 n& I U1, A u8 U' W+ {) |1 Z% ^, e
+ }0 S- B6 ^6 T, @18 p0 N7 @, K" I! x( t2 y
1
6 x ^. {4 L, {1 U% K6 } `0.75+ z" ^1 w* x# V. s) j! H
1.125
! k5 Y$ l. e5 N0 N( M* L
$ q: P4 b& m6 W) P. O# }2, {* C7 U) P6 l/ t. F0 `" b$ h" |
1.06259 F; K8 y- `3 _# R" h8 r
0.7656254 l3 M* r2 C3 m6 @* B4 u
1.1484375' a. a4 h* C( c- G7 d0 U0 }
6 K+ I9 u, x) Z/ @* z( F3
2 `4 ^! M$ {" ?1.074218757 f9 b, `$ ]4 p9 |% m2 _
0.76855469* {5 `8 v, G' J8 u2 o+ d7 W5 @4 f* w: B
1.15283203
2 a8 L8 o5 V" d0 ^+ W4 F
1 i1 O7 |3 y$ e/ d7 w4 _3 m# y: [4
* E% ^: ]% T1 ~( b4 g1.07641602
$ A& D# J+ P! H7 E8 Q. P; Y0.76910400
1 p% S2 G* g0 x2 c) Y j- C1 k1.15365601
( I+ G U: }# f: Z& a3 B: C7 u* F- B6 T& _0 ` ~
5
0 I) ]8 Q, N& a l: z, _1.07682800
# _/ ~# u. D! f0.769207009 H2 W- W7 s' L" p$ h1 Z+ A
1.153810508 _- w/ E+ [0 i' c
0 F* [* [+ w# [) ]; c) U
6* J" b/ k) r6 ~& V; I$ j, Y
1.07690525! v" e5 y) J* ~
0.76922631, L3 ?3 s: }0 h3 `
1.15383947$ c% ~0 `# x3 A4 L6 h$ F _
6 w% ?; |' [$ E) J; |! t* m. w7
0 H( }* T) u8 l6 A) u1.07691973! t7 c3 ]( s1 y% a
0.769229934 g- N. p8 {" D
1.15384490
# }6 X; E/ \ q0 J0 G) y; m7 t4 a6 h
8* g" M" r# H& v8 b
1.07692245( R; ~9 X3 C; i- X/ O6 Q u
0.769230614 N4 N3 q) A% n/ i( y! C* Y
1.15384592" r% x- Y% V6 l0 f2 O9 a
4 O! I) w: W- W9
& P0 D# [) p/ v) }+ W' K7 k1.07692296
6 K$ F1 p1 u2 F' F8 y' X0.76923074
. _+ Y- c0 j7 d9 m) i1 q' B1.15384611- i& H; X. l; V& L1 ]7 o& v. L
4 G4 i# {! U) y, D5 f6 \* O10
5 _2 a' M; F7 W8 @1.07692305$ o) T/ y- h6 w4 l, E, k
0.76923076. A; w4 { }! \" I8 D
1.153846151 N. Z9 \" L8 B
" }; `" k4 e2 J# l( ~9 B4 f0 s
111 C: o5 v8 Q( }4 x L0 Z1 z) a. _6 a
1.07692307* n: t& ?% j/ ?
0.76923077- U! S0 q& @4 f1 F5 O
1.153846156 V" q W1 x, N0 J3 U; F4 v7 m$ `! A+ o
, \7 D' y$ M& I: A4 J
12
" O9 n& [. x$ f9 ^8 U1.07692308# q, q/ {3 R; q2 X- A
0.769230772 r2 e$ ~1 K$ ~( |! g) W9 x5 E
1.15384615
4 S7 k" g1 t* b: U# p+ j4 M% i
\7 ^! q# `5 l& J& u5 r, ]. I |& ~/ W: e
返回頂端
2 \; W/ ?+ E! S
K- q' G1 S% H8 K0 _) d7、Google搜索引擎的網頁級別的實現! A$ Y8 Z# \: [5 h0 E( j2 b! G9 w
有三個因素決定的網頁的等級:網頁特定性因素、入鏈錨的文本、網頁級別。8 v" Z. z& q4 G( Y/ R
網頁特定性因素包括網頁的內容、標題及URL等。 X% `( G; Q# q8 n2 u- j9 g; Q6 w
為提供檢索結果,Google根據網頁特定性因素和入鏈錨的文本計算出網頁的IR值,這個值被檢索項在頁面中的位置和重要性加權,以決定網頁和檢索請求相關性。IR值和網頁級別聯合標誌網頁的基本重要程度,這兩個值的聯合方式有多種,但明顯的是不能相加的。1 q$ M; {7 d9 s
由於網頁級別只對非特定的單個詞的檢索請求影響比較明顯,對於由多個檢索詞構成的檢索請求,內容相關性的分級標準的影響更大。
, \% ^1 Y' V1 V5 `+ O7 t8 q7 Y- E
& B2 M4 J1 L, S8 t) Q返回頂端/ F$ t' h6 U$ m, L$ J
! _! \9 F r. M, y6 Y1 V1 F' E
8、用Google工具條顯示當前頁面的網頁級別(PAGERANK)
% X2 [/ t, | `, i! n Google工具條是Google公司開發的IE插件,需要從Google下載並安裝。注意,顯示網頁級別的功能是其高級功能,這時會自動收集用戶的信息,並會自動升級工具條。
1 A2 l8 [8 G/ s4 L3 ~+ [; g 這個工具條顯示的網頁級別分為0-10共11級,如果根據理論用(Nd+(1-d))測算,假定d=0.85,則推測實際網級別的對數即為顯示的級別,且對數的基數在6-7之間。
- _! g4 e1 k2 w) |- R 參考文獻1中給出了一個方法,可以不經過toolbar就可以取得網站主頁的網頁級別,可惜因為版本或別的原因,已經不可行。下面我根據提示在IE緩衝目錄裡找到http://xagoogle.com的獲取URL.
1 U ~' g3 t1 ]# D; p+ J: Z; M0 S
. `; n' c, t5 U8 c( X7 Shttp://216.239.33.104/search?cli ... ong%2E3322%2Eorg%2F
1 r* y8 d9 G' j9 z4 z
9 ^$ X) B. W- D' |/ }3 Z W% h5 X$ F$ D/ f6 u+ y
我的主頁的網頁級別是0。 isaac和chedong的分別是5和4。
4 h: g0 m8 a0 s! X* x Z2 C% q) w8 W2 a- Y' L: Z$ w1 g
返回頂端
% n* Q" [8 c- S- }8 n! f/ y4 ^" P# D: B# Y) Z _( N' v# b: _
9、Google的目錄服務可以顯示網站的pagerank
( Q% z! E' X9 K4 U# {% c( i: W# {此處級別分為7級。有人對兩種級別進行了比較。
5 d9 V, m1 y# c% N# d6 x; l# C5 y# ^, p
# o( X# j/ n7 O/ n! a
% @3 \* m2 [3 N/ b4 u- A. U7 Q* S. K! PPageRank算法學習<二>% p" G: _8 B- _
返回頂端
! \6 E. c/ ?2 ~+ J0 A) {1 x
* h9 E% }4 f. c1、入鏈對計算頁面級別的影響
6 O( y0 f6 p" s# Z" \入鏈總是能增加當前頁面的級別,尤其當前頁與其下級頁面構成回路時,這種貢獻更大。如右圖例,設ABCD各頁初始級別為1,阻尼係數為0.5,PR(X)/C(X)=10。則易算出
7 _$ M2 v( h/ [; V" ?9 J t5 B
, L( Q3 j! R3 I' ~- x( l4 v& R: ^$ }+ _* C9 |
PR(A) = 19/3 = 6.336 G1 O9 q# \& Y# H* f
PR(B) = 11/3 = 3.67
9 I) n4 i$ q2 W" `7 dPR(C) = 7/3 = 2.33; @, \& y! a. [7 A. j$ k$ k; T
PR(D) = 5/3 = 1.67
$ s- K( C( F7 O2 H d4 e! N& \+ L# `( _6 F
如果A不在回路上,則只能得0.5*10=5的收益。+ j& |: O6 s" O
阻尼係數越大,頁面級別的收益越大,且整個回路上都能收到更大的收益(即入鏈收益更能平均地分佈到各個回路頁面上。針對上例,將阻尼係數改為0.75,則有
; a7 m4 p0 j& p
$ r/ B( K3 C: n; _( }PR(A) = 419/35 = 11.97
6 b% w1 C- A9 q7 D& PPR(B) = 323/35 = 9.231 w; F- [4 j% r) k; E0 E% J
PR(C) = 251/35 = 7.177 B2 Y" z, z. N. N+ T
PR(D) = 197/35 = 5.63
* M8 A9 U8 p% e3 o) [- A: a
7 y, {; ~$ v" K- |3 |' s+ i# Z- d除回路上各個頁面的級別值明顯增大外,PR(A)/PR(D)的值敢明顯減少了。
3 J+ ~ J/ x9 w( V( @5 y1 R 入鏈對整個回路上所有頁面的級別值的增加之和,可以由下面這個公式得出. * f2 I y4 t8 u' F6 O$ p3 ^
: A% T6 `7 g" w: r- g(d / (1-d)) × (PR(X) / C(X))
2 \( ~/ k: N/ I$ v( X; p8 R6 O* }0 |1 @4 ^ Z: W$ q" }& A& \0 N
這個公式,可以由簡單推導出。 / i/ T1 M* B; }) G+ X* }3 ~
1 v) m5 z6 P5 T* W2 f4 z# }2 W& `
返回頂端$ L c5 U2 ]) W
2、出鏈對計算頁面級別(pagerank)的影響! ^% O0 m3 x1 ]1 G! ~% i
增加出鏈不會影響整個web的總級別,但一個站點失去的級別值等於鏈到的站點的增加值之和。對於兩個封閉的站點,從一個站點鏈上另一個站點時,增加的和減少的都是(d(/(1-d) × (PR(X) / C(X)).如果這兩個站點互相鏈接,則此值減少。用隨機衝浪模型可以解釋這種現象,就是出鏈的增加,減少了用戶訪問站內頁面的概率。舉例如圖,設阻尼係數為0.75,則4 d! }, H/ E7 [+ g6 s. ~3 {5 i& ?
; g, u# Z% [& X2 j/ C4 `+ e6 ]) y# O* }5 ]- G
PR(A) = 0.25 + 0.75 PR(B)
4 E$ J3 g( t+ Q0 ~2 \PR(B) = 0.25 + 0.375 PR(A)
2 Z. M& x O+ s1 P0 MPR(C) = 0.25 + 0.75 PR(D) + 0.375 PR(A)6 r1 d5 x3 _% q9 U+ c% I% O
PR(D) = 0.25 + 0.75 PR(C) ) r0 y# S4 K- t1 d
得:6 r- ` k0 K5 Y( Y, a7 ~
PR(A) = 14/23$ |: I, E" O$ ]
PR(B) = 11/23
; P. O4 I ^1 {! R8 v* P$ ]; l& zPR(C) = 35/23* ^, p7 g9 n8 S# q8 C
PR(D) = 32/23 q; U+ i$ T' }1 {) \
PR(A)+PR(B)=25/23
: w* |% \& u5 yPR(C)+PR(D)=67/23* }# W6 f1 F: A. L' [! F
PR(A)+PR(B)+PR(C)+PR(D)=92/23=4
9 S' e6 I: O. l& _$ B9 B* n) F. o2 L! w
4 L, e. @8 f, V) L v) c4 f( }
$ A0 n3 u/ x3 L+ jPage和Brin將這樣的鏈接稱為懸擺鏈,它鏈到頁面沒有出鏈。懸擺鏈對頁面的級別計算產生負面影響。如例,阻尼係數為0.75.
0 \" z( q3 e" d; X; W' `! E! {" c# K% r( q
, \) g6 i+ ?* I1 ]% X
- U, q" M- P" `. T7 \
: h5 I) q' s; E5 j* L+ ^' o: d; o$ h
2 ~6 u0 ~- W9 D4 H% R1 j4 A: _ 2 b9 M# f! [$ W/ n8 Z
. _( j, V4 Z, T4 E9 b3 M1 h2 k M8 D
PR(A) = 0.25 + 0.75 PR(B)
|8 l( L3 L' [1 W/ ~( W8 R! VPR(B) = 0.25 + 0.375 PR(A)6 P4 ^5 E5 K! C9 n
PR(C) = 0.25 + 0.375 PR(A) 0 J6 y% P: U# P" {; P
得:$ j3 K7 q, X- B' l; g* j' F2 f
PR(A) = 14/23: \3 `5 B+ B T3 ^
PR(B) = 11/23
9 T0 ?. O* s/ H2 M* bPR(C) = 11/23
. y! E$ C# @5 H8 X7 APR(A)+PR(B)+PR(C)=36/23<3
8 R* e7 h& i2 B/ A2 Z y0 {" j- B3 Z3 w0 d
; F4 F* B2 t5 N0 ~) p: m) u& ]
據Page和Brin,Google在索引頁面時,懸擺鏈的量很大,主要是由於限制robot.txt的限制及索引了一些沒有鏈出的文件類型如PDF等。為消除這種負面影響,google在計算級別時,將此類鏈接從數據庫裡去掉,在計算完畢後,再單獨計算懸擺鏈所鏈到頁面。由此可見,PDF類的文件還是可以放心地在網上發佈的。
2 M) `+ O4 c$ x$ B
" m. J6 A0 s h* v. D$ J& H! K
, A k+ W; c# R* M1 Z
* a+ A* k6 a( N; e1 o+ _、頁面數量對pagerank的影響. h# _8 [8 |/ d4 W$ H; Q- o( W8 L+ u" t
4 e- N$ [! J$ v0 }
先看例子。阻尼係數為0.75,PR(X)/C(X)=10,則
4 @* N7 N3 z7 |) G N" S; _5 I+ Z" C
0 W9 D" k( W1 U
! f( p. ~3 I+ V: s+ OPR(A) = 0.25 + 0.75 (10 + PR(B) + PR(C)). Z5 F( Y2 ^; m, k
PR(B) = PR(C) = 0.25 + 0.75 (PR(A) / 2)
! Y/ }7 C3 H4 V7 O! c, S得:
( C1 X! b) w% c/ y! UPR(A) = 260/14
) K2 I, K% i( lPR(B) = 101/143 D; m: s, N! t6 H$ k! Q
PR(C) = 101/14
- f( o( s% Q* }4 A0 PPR(A)+PR(B)+PR(C)=33;) {' ^ o/ V) \8 n" f" o. ?" W
增加頁面D;7 q: V6 b/ l* v, M4 X
PR(A) = 0.25 + 0.75 (10 + PR(B) + PR(C) + PR(D))
' y3 v* S1 ? @$ E7 Z" ~/ R9 M3 hPR(B) = PR(C) = PR(D) = 0.25 + 0.75 (PR(A) / 3) 6 p& Z; u( J B4 I# e6 I8 g
得
5 B& C& V# M7 j7 Z& `2 d% ~& U+ W$ w# LPR(A) = 266/14! Z5 v( r0 E# h* W0 N2 j" V. J$ s f8 p
PR(B) = 70/149 `" Z2 q4 j/ e' R `9 B
PR(C) = 70/147 }5 C5 k$ k+ ~, f
PR(D) = 70/14 ) } w$ M7 J; N+ ]7 H }: I
PR(A)+PR(B)+PR(C)+PR(D)=34
2 @' }6 y) o+ _; }( ?$ a" @' p
& Q3 x( o3 T+ n0 h) Q增加頁面後,所有頁面的級別值之和增加了1,A頁略有增加,而B、C則用大幅下降。( e5 g) G8 i7 l) m, }% f
再看右邊的例子,假定同上。
# F0 @ B) h9 b+ {+ p
% y; W; R! N; s2 \/ B% E' }5 O& O7 ^2 I3 P) s' e1 M
* r' q5 C, @( r) j9 j/ ?+ m& g" T f# v
PR(A) = 0.25 + 0.75 (10 + PR(C))5 Q- _: t$ _1 F
PR(B) = 0.25 + 0.75 × PR(A)6 _: ]/ | K" C4 ^6 E5 g3 Z1 D z
PR(C) = 0.25 + 0.75 × PR(B)
+ k c- n: K7 i1 q得:1 t6 V1 V6 x/ F- f* W; X' c. n
PR(A) = 517/37 = 13.97. u1 D9 h7 R7 R$ q
PR(B) = 397/37 = 10.731 {. W4 f2 g5 t! [3 ~6 {& z
PR(C) = 307/37 = 8.30
1 B9 ]5 W& Y3 h$ A1 _" X6 X6 k! d0 f* i7 P8 V- I2 Y: x
' R0 N) {0 C! j3 z$ q2 ]
增加頁面D:
8 H6 i0 B7 T8 G, m2 ]+ _PR(A) = 0.25 + 0.75 (10 + PR(D))
* B7 f. E Y8 n; S* uPR(B) = 0.25 + 0.75 × PR(A)- |0 l) C/ O1 X4 z* [
PR(C) = 0.25 + 0.75 × PR(B)
/ n1 j, q3 S& N2 j) UPR(D) = 0.25 + 0.75 × PR(C) " P2 X, |( @# C8 g
得:! M( N/ ?% n% j& i0 n" x
PR(A) = 419/35 = 11.97% V4 n& A3 f* \- V
PR(B) = 323/35 = 9.23
; r% s1 H1 L! A* c; y( `PR(C) = 251/35 = 7.17+ N+ s, f3 R% x
PR(D) = 197/35 = 5.63 : e- E: o D; }2 S, ^ q, T* q
- |* Q' E, F# v: H3 F. c3 U
增加頁面後,所有頁面級別增加了1,但每個頁面的級別值減少了,這是由於新加頁面分享了入鏈代來的值。從這個結果看,增加頁面減少了已有頁面的級別值,露了google算法青睞小站點的特點。當然,大站點也會因內容豐富而吸引其它站點的出鏈而得以級別值增加。
+ Y2 L2 O( B- s; E3 L1 P$ U2 [
5 Y! s2 v* C/ n- @, Y8 Y返回頂端
% p; r& r( a) _* N1 M/ e4 j$ {
: M3 d; a4 F$ s; _4、針對搜索引擎優化的級別分佈
1 p2 s r. O& V* g& |7 a1 o先看兩個列子,阻尼係數為0.5,PR(X)/C(X)=10;2 |" Y+ H; N. m) K( W ^7 {) ~' l2 R
! V6 T+ E1 l. n2 y Z
. I1 Y; m8 H$ P' `
) M# U$ d9 Y O& R
BC之間無鏈接時:, A2 J; w' c0 `2 }. {' b: U
PR(A) = 0.5 + 0.5 (10 + PR(B) + PR (C))( C2 g( O! i/ m. c
PR(B) = 0.5 + 0.5 (PR(A) / 2)2 W8 Y8 B+ g" C! }& s
PR(C) = 0.5 + 0.5 (PR(A) / 2)
( D0 b, U U# y0 N! f0 S得: z/ N3 }4 u: ] q! | Z- V# l! r- f( m
PR(A) = 8" g$ _ z9 ?+ h2 x, c+ Q
PR(B) = 2.5
0 l: t$ T2 {( o! N6 a3 T. Q, ?9 B( xPR(C) = 2.5
" A" _0 W4 S5 g1 wBC之間互相鏈接時:
, k# H9 P, o, X NPR(A) = 0.5 + 0.5 (10 + PR(B) / 2 + PR(C) / 2)4 z* s2 m: Y3 d# i5 a
PR(B) = 0.5 + 0.5 (PR(A) / 2 + PR(C) / 2)2 I+ U; {7 m; k! }
PR(C) = 0.5 + 0.5 (PR(A) / 2 + PR(B) / 2) 9 |. \- n! L2 F
得:- ~! V! M& z. t& i
PR(A) = 7
3 k( [. U0 F6 lPR(B) = 3
0 a! i# \2 }' H7 L6 ~PR(C) = 3
' Q7 e Q# [" w0 Q" @+ D
9 F$ C, Y) D. ^8 t- H! P* h8 N B( u當BC間互鏈時,雖然減少了A的級別,但BC都增加了。這符合優化站點所有頁面而非只主頁的優化思路,因為只有每個頁面的級別都提高了,當有檢索詞命中這些頁面時,它們才能排在前面。這種優化的方法也很明顯了,就是盡可能地在所有頁面間平均分佈入鏈的貢獻,各低級頁面要增加互鏈。
& W- Y* \* |, J
5 {1 I1 U! m1 Y# j# ?返回頂端 / t v, m9 @! t9 |: N+ O
6 E, I, G2 P! f
5、出鏈連接技巧: S3 O, h7 x9 t; N
只要不影響易用性,盡可能地將所有出鏈集中在一個或幾個低級頁面中,可以有效地降低出鏈對頁面級別計算的負面影響。看列子:阻尼係數為0.5,PR(X)/C(X)=10; % r1 i. h1 e. X
8 K8 L, u0 k9 H
6 {. l0 |# m# O0 _; r# N* ^8 r
1 U; o8 \) O+ Y- N# XBCD都有出鏈時: d ?" d* a+ X7 D
PR(A) = 0.5 + 0.5 (PR(B) / 2 + PR(C) / 2 + PR(D) / 2)
6 Z5 V# {, ?! K) nPR(B) = PR(C) = PR(D) = 0.5 + 0.5 (PR(A) / 3)
& i; b8 |1 P1 ?8 w4 U& s( l得:! S; b2 Z1 Q4 n% d) T9 ]
PR(A) = 1
: m; A7 o. h& a6 OPR(B) = 2/3- r0 \& D0 }" c$ c6 @
PR(C) = 2/34 A8 L2 m9 P9 ~: E: R% M
PR(D) = 2/3 : b6 _5 @! a/ X$ d+ }
出鏈集中於D時:
- S! N; ]6 q2 J5 H: c" l% y2 hPR(A) = 0.5 + 0.5 (PR(B) + PR(C) + PR(D) / 4)! {' T# [5 i# n! ]. i8 d3 U
PR(B) = PR(C) = PR(D) = 0.5 + 0.5 (PR(A) / 3) 4 \7 A8 A( s7 V' Y& e
得:
% S9 ]6 M, F4 m3 T) c* gPR(A) = 17/13
) @4 d8 m7 o4 F9 |; u% o" ]) SPR(B) = 28/39: Q# ]' o1 M# G1 ]9 O/ Z) B9 _- U. K' s
PR(C) = 28/39
. s: \& `+ W) I( I6 Y; qPR(D) = 28/39
: p, `7 q5 ^: _0 q( P% x! [, X4 d; o9 r7 E; `8 X$ d
從結果看,出鏈集中後,ABCD各頁面的級別都上升了。
9 U! D2 ~& \3 V+ }, M/ |; ?7 z
7 }! _4 U( s i, Y0 Z返回頂端
/ S% y% N) ]4 U7 b& l( v- ^8 w \5 |! b( w9 k0 l: A1 B0 e( {
6、交換連接的特性 [9 j. e, U0 X5 P
鏈接交換增加了實施交換的頁面的級別,卻減少了其它頁面的級別。如圖,阻尼係數為0.5,PR(X)/C(X)=10;
3 X) V7 s& C) O2 c4 ]0 |
5 R! Y: T" J1 ]. n( K9 J交換前,6 p. r+ @- S" z2 H- |8 Y
PR(A) = 4/3
: {: U# i5 }/ VPR(B) = 5/6
6 q6 K E! g$ k5 G0 J* U/ KPR(C) = 5/6 % h. q3 l& T) k. ?" K. [
5 X$ f( b8 S: k9 \# S5 d
9 I0 R% V7 b/ {# Z# U9 {8 i( uPR(D) = 4/33 P2 Q& m, j% u
PR(E) = 5/6
: [9 L0 B6 n, A! J3 {; d- L) xPR(F) = 5/6
+ _( c0 u3 F3 C4 t6 y* @交換後;9 b1 _6 ?9 _. V; V% E* {/ Q% g+ @
PR(A) = 0.5 + 0.5 (PR(B) + PR(C) + PR(D) / 3); b! c2 w. ] U0 a9 r; f9 s7 i
PR(B) = PR(C) = 0.5 + 0.5 (PR(A) / 3)
5 J) G0 Z. ?: k; t4 I) b; M! QPR(D) = 0.5 + 0.5 (PR(E) + PR(F) + PR(A) / 3)
& Q# P7 N& m% i/ j9 cPR(E) = PR(F) = 0.5 + 0.5 (PR(D) / 3) # y; f- o3 K6 R. S& f
得5 q& I) d4 z+ p: s. m
PR(A) = 3/2
+ h* Y2 ~& {) q# ePR(B) = 3/44 [& p0 |1 k0 V7 e1 n& |& I
PR(C) = 3/4
0 X4 L; w7 [0 A& H/ \1 F" G8 P9 ]PR(D) = 3/2
: A4 p) I; }! ~( f0 o- H# ^4 J3 nPR(E) = 3/4- ^( i: H8 U! ^' c! Z! y. V
PR(F) = 3/4
! X6 c" M; o9 a- |: d; e
+ X) C# z7 w8 M+ v$ F5 K$ x% H這情況恰好與增加站內互鏈的效果相反。由此,當需要對主頁進行針對某一關鍵詞的優化時,才取交換鏈接是可取的。2 O" S: M/ X7 H# g; B
例中級別值的重新分佈,更基本的前提是兩個站點中參考交換的頁面互相為對方提供的級別值是相等的。如果一個站的某個頁面級別高或少出鏈,則這個站所有頁面的級別會降低。這兒一個重要的影響因素是站點頁面的數量。當一個站點的頁面更多時,有更多的入鏈級別值被分佈到站點的其它頁面中,因而參考交換的頁面不能提供更多貢獻給對方。 |
|