學習下百度的原創內容的搜索方法及搜索服務器 f. C+ V x0 s- ] _
. n4 z) d j; S. j& X+ H5 Y; }% A
1.搜索服務器接收客戶端發送的搜索詞。
: F* p" j2 U9 p" t! o; x
. r: a4 a, }. n4 H2.搜索服務器根據搜索詞獲得N 個搜索結果,N 為大於1 的正整數。
( s$ b/ r" U9 L+ \6 f% ]1 G" O. X$ r2 ]) w
3.搜索服務器對N 個搜索結果進行文本相似度分析。
0 y$ a/ L* s& P" j3 d( i' s$ J" I% W8 t$ `
4.通過深度學習技術計算搜索結果的文本相似度,並可認為文本相似度$ ^( K7 l) R# D3 }
滿足預設閾值的搜索結果的主題內容一致,進而可根據主題內容對N 個搜索結果進行分組。
7 E @! r( ^- H# i/ M* C3 z
9 I* A7 M2 e% C G6 e" Y9 P n9 d5.獲得相似度滿足預設閾值的搜索結果的數量Q,並進一步判斷搜 索數量Q是否大於預設數量。
! p) q+ Z: f4 U6 M0 `7 L: E; s [* p* u
6.相似度滿足預設閾值的搜索結果組,可獲取其中搜索結果的數量Q,並進一步判斷每組中搜索結果的數量Q 是否大於預設數量。
1 I% t- I8 I9 A$ m+ I( s1 F* b
) t y; c: m& B x9 w9 o) s7.如果判斷大於預設數量,則搜索服務器從Q 個搜索結果中抽取M 個原創內容發佈源中的一個,其中,M 為正整數且小於N。其中,原創內容發佈源可以是具有原創內容的搜索結果的URL,具體地,如果有M組的搜索結果的數量Q大於預設數量,則可在這M組中每組分別抽取一個遠程內容發佈源。
6 H( X) D5 ~$ g例如,可設定預設數量為10,對於搜索到的40 個搜索結果,如果文本相似度滿足
* V3 z, } F! ?# o預設閾值的搜索結果有A、B、C 三組,搜索結果數量分別8、12、14,則可在B 組合C 組中分別
! D& L1 W( @* c% h! A3 W, T1 N抽取一個原創內容發佈源。
* w8 B! O& M# U, F6 f- K: m
4 f+ t8 Y+ |* V# t: y0 t7 N3 [" U8.根據權威網站獲取的原創數據對M 個原創內容發佈源進行修正。
" K: Q+ H' N9 e
& ^" p! A: @, x; i6 \+ B |