學習下百度的原創內容的搜索方法及搜索服務器" P0 z- y: H8 s* H2 \( X+ n
! b2 ` P. x7 V3 S% i9 }! c. [1.搜索服務器接收客戶端發送的搜索詞。
0 j' | N# k4 m4 F3 A ^6 S- R
* z1 s. }8 k& t0 ?2.搜索服務器根據搜索詞獲得N 個搜索結果,N 為大於1 的正整數。
: G% p* E" m7 @2 v+ t" Z$ D( y' j$ O9 }; R) J& Y3 U3 Y0 h
3.搜索服務器對N 個搜索結果進行文本相似度分析。8 ]6 {4 l: r0 L) h9 a
4 n/ U6 B2 [/ }* p8 n8 p
4.通過深度學習技術計算搜索結果的文本相似度,並可認為文本相似度# Q0 }8 |7 S( w# u& U" z7 m
滿足預設閾值的搜索結果的主題內容一致,進而可根據主題內容對N 個搜索結果進行分組。
* U# k, L5 n4 N1 E+ d
3 n" o0 {3 F4 e& w" N. L+ c5.獲得相似度滿足預設閾值的搜索結果的數量Q,並進一步判斷搜 索數量Q是否大於預設數量。
. Z, l( L/ S0 v8 N$ `) ?6 q/ i. M; W) [
6.相似度滿足預設閾值的搜索結果組,可獲取其中搜索結果的數量Q,並進一步判斷每組中搜索結果的數量Q 是否大於預設數量。
1 c& X1 Z% c& L3 C, U0 U3 w0 ? `, L, l9 \# f
7.如果判斷大於預設數量,則搜索服務器從Q 個搜索結果中抽取M 個原創內容發佈源中的一個,其中,M 為正整數且小於N。其中,原創內容發佈源可以是具有原創內容的搜索結果的URL,具體地,如果有M組的搜索結果的數量Q大於預設數量,則可在這M組中每組分別抽取一個遠程內容發佈源。! n2 \7 R* K; V" g7 ^+ m
例如,可設定預設數量為10,對於搜索到的40 個搜索結果,如果文本相似度滿足9 k* X/ y" S y+ Y: F/ }
預設閾值的搜索結果有A、B、C 三組,搜索結果數量分別8、12、14,則可在B 組合C 組中分別/ y) D2 j1 F* I, e- e! Y
抽取一個原創內容發佈源。7 Z; w& W4 ~6 `% i7 f7 _4 e
2 j7 j) @' h3 ]8.根據權威網站獲取的原創數據對M 個原創內容發佈源進行修正。
% R' B3 N5 @% q$ j1 d7 L" r8 R
6 P. f. Z2 C, C |