原貼地址:http://www.luosuo.net/old/thread-108338-1-1.html9 c! P# F& W* d4 O& I6 g
我覺得有價值的就是這個知識點了,將學習過程貼出來,方便和我一樣的新手理解學習,大家一起進步。) R5 ]* [! v7 U* i
一、定義/ T: X9 V# N0 s3 G3 |% ~& G
所謂隱性語義索引(lsi)指的是,怎樣通過海量文獻找出詞彙之間的關係。當兩個詞或一組詞大量出現在同一個文檔中時,這些詞之間就可以被認為是語義相關。機器並不知道某個詞究竟代表什麼,不知道某個詞是什麼意思。 m$ @: [( o# H- {, d W
比如:8 A/ K, x" s- n$ `3 H
(1)電腦和計算機這兩個詞在人們寫文章時經常混用,這兩個詞在大量的網頁中同時出現,搜索引擎就會認為這兩個詞是極為語義相關的。 (2)SEO和搜索引擎優化(雖然一個是英語,一個是中文)這兩個詞大量出現在相同的網頁中,雖然搜索引擎還不能知道搜索引擎優化或SEO指的是什麼,但是卻可以從語義上把」SEO」,」搜索引擎優化」,」search engine optimization」,」SEM」等詞緊緊的連在一起。可見潛在語義索引並不依賴於語言。
# n; p; ^! \7 {6 e4 Y(3)如蘋果和橘子這兩個詞,也是大量出現在相同文檔中,不過緊密度低於同義詞。所以搜索引擎不會認為它們是語義相關的。; i3 b9 Z. s) }6 w5 Z& E, A
' ~ H6 I5 m1 ~5 F: x1 [
二、分析
( k8 w' h* ^+ o4 w- S/ h% B搜索引擎作弊最快的方法當屬關鍵詞堆砌,這源於信息檢索中相關性算法本身的缺陷,為了對抗這種作弊方法,搜索引擎通過潛在語義索引(Latent Semantic Indexing,LSI)算法來發現這些作弊頁面,LSI算法也是信息檢索領域一種古老的算法,1988年由S.T. Dumais等 人提出,主要用於自然語言理解,通過統計的方法對文檔的進行語義分析,發掘同義詞,相關詞組等等。
/ z( i; N3 ]* t. ^6 w舉個簡單的例子:比方「汽車消費」這個詞,通過分析大量 頁面發現這個詞頻繁的出現在「汽車消費貸款」,「中國汽車消費網」等等這些詞組中,那麼機器可以認為人們的語言習慣是將「汽車消費」和「汽車消費貸款」、 「中國汽車消費網」等等聯繫在一起來描述一些事情。通過這樣的分析發現一些由機器生成的關鍵詞堆砌頁面,因為搜索引擎認為機器生成的頁面不會出現這些相關聯的詞組。
% q; {8 t* ?, Q" V" m: N9 `5 \0 ]. p( ^' B( R8 ]! a/ b4 n; m
三、實例
0 k$ ~& j2 c+ z# d: X例如以下的這些關鍵詞
' T3 E- D9 S. Y) B; Phow to hypnotize someone without them knowing
& A$ j% n5 \6 y1 i9 k# q! l9 Ghow to hypnotize someone instantly$ U: P5 f: c/ ]0 \
how to hypnotize someone to sleep: ]6 D) B3 ]2 u1 A1 A
how to hypnotize someone step by step6 U. E8 s9 H$ K1 h% L: v
how to hypnotize someone easily, K8 ^; i9 ]1 _/ J2 \) ?; g
我們拿出這些詞的不同部分:
% L; I U' w' O0 ?, X4 l8 Z8 _someone% j% B( T4 b M0 A
people5 v( K. I/ m" J$ g" r
without them knowing! z5 _5 ^* b5 H# S8 U5 l
instantly' q! j* D+ _8 Z; S9 F
to sleep
# T8 F1 ^/ U* Vstep by step
8 \/ f* v& R* T! f- h* o |# [- ]easily6 i: }; g" A* {
我把這些不同的部分看做是「how to hypnotize someone」的LSI及其延伸。
9 c6 P. e# J+ p. W& z! ]( l$ U8 h0 _: M9 c# V% B( J w {
原因分析:假設首頁在「how to hypnotize someone」這個詞上有首頁排名,我們將上面的那些不同部分的詞融入首頁文章或者出現在首頁頁面上,會使得我們的首頁在搜索:
3 e3 n1 M2 i( q8 t1 ghow to hypnotize someone without them knowing( R) N! V7 Y. D: I! a' w/ X
how to hypnotize someone instantly
9 s# e8 |/ X# p8 z8 J5 d; show to hypnotize someone to sleep
. G) m+ T! e% M' d1 Show to hypnotize someone step by step
+ ?4 E* _% b* }* _' Y! y; dhow to hypnotize someone easily/ Z# X5 Q/ Y' t7 D
how to hypnotize people
- w' f( n/ n" J5 N9 _9 Q這些詞時也會有較好的排名。
; J Q# A- m x1 @
6 ]" L; e9 V5 j) ^4 X O$ c/ ^; I0 e區別對待:
: k4 B& Y f+ L- i2 ^當然,如果是首頁文章,我們無需原原本本將這些詞全部插入,而只需要插入不同的部分即可,如在首頁正文中,我們無需嚴格地將「how to hypnotize someone instantly」插入文章,而只需要將不同部分的「instantly」這個詞自然融合進文章即可。& q# {" k+ w1 Y1 y; A
如果你的首頁是只有一篇文章,寫文章的時侯,需要把這些LSI全部整理出來,把這些不同部分自然融合進文章中;
3 t7 \; H5 u( l0 H% q! Z& v但如果我的首頁有鏈接做到這些LSI關鍵詞,那麼這些LSI關鍵詞成為這些鏈接的錨文本,這時可以不需要融入文章中。+ N0 h6 r. d) h( |6 f# U1 t9 p
( {$ M3 Z9 a* P2 s \1 C s |