常見的採集有大致分為兩類:cms等自帶採集,採集軟件。 缺點是效率低、採集不夠靈活。php或者asp程序實現採集,這種方式採集任務一多容易卡死。 : x5 Z3 m; q4 E9 |# f
缺點是發佈的時候不同的cms需要不同的接口處理。
! J; `( |: R2 O9 Q0 A- F! _優點是採集效率很高,採集速度很快,可大批量任務同時採集,並設置好後可做到定時等無人操作自動採集更新的功能。
cms自帶的採集在任務量少、網頁結構簡單時是十分有效的,這裡只說下dedecms的過濾規則 {dede:trim}你需要過濾的內容{/dede:trim} 自己使用和結合網上的總結了下過濾html一些代碼的正則表達式,可根據情況增減,基本可以滿足傻瓜式過濾 {dede:trim}<style([^>]*)>([^>]*)</style>{/dede:trim} {dede:trim}<script([^>]*)>{/dede:trim} {dede:trim}</script>{/dede:trim} {dede:trim}<a([^>]*)>{/dede:trim} {dede:trim}</a>{/dede:trim} {dede:trim}<param([^>]*)>{/dede:trim} {dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim} {dede:trim}<embed([^>]*)>{/dede:trim} {dede:trim}</embed>{/dede:trim} {dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim} {dede:trim}<object([^>]*)>{/dede:trim} {dede:trim}</object>{/dede:trim} {dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim} {dede:trim}<OBJECT([^>]*)>{/dede:trim} {dede:trim}</OBJECT>{/dede:trim} {dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim} {dede:trim}<iframe([^>]*)>{/dede:trim} {dede:trim}</iframe>{/dede:trim} {dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim} {dede:trim}<IFRAME([^>]*)>{/dede:trim} {dede:trim}</IFRAME>{/dede:trim} {dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim} {dede:trim}<font([^>]*)>{/dede:trim} {dede:trim}</font>{/dede:trim} {dede:trim}<img([^>]*)>{/dede:trim} {dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim} {dede:trim}<a([^>]*)>{/dede:trim} {dede:trim}</a>{/dede:trim} {dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim} {dede:trim}<td([^>]*)>{/dede:trim} {dede:trim}</td>{/dede:trim} {dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim} {dede:trim}<tr([^>]*)>{/dede:trim} {dede:trim}</tr>{/dede:trim} {dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim} {dede:trim}<tbody>{/dede:trim} {dede:trim}</tbody>{/dede:trim} {dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim} {dede:trim}<table([^>]*)>{/dede:trim} {dede:trim}</table>{/dede:trim} {dede:trim}</span>{/dede:trim} 一旦採集任務量大或者網頁結構複雜等時,建議最好不要考慮用cms自帶的採集,費時費力,效果一般。 Cms自帶的採集即使是采普通的網頁過濾起來也很麻煩,還是採集軟件爽啊,隨便設下就ok了 其他的cms就不說了,說下採集軟件的採集,採集軟件的採集就像下載軟件一樣,即使網速再慢都不會卡死,經常用cms都知道采上一百的文章都經常卡死。 現在採集軟件很多很亂,基本沒有形成一個品牌,常用的有火車頭(www.locoy.com)、小蜜蜂BC(www.downreg.com)、守望數據(http://mycjq.uu1001.com)、三人行採集(www.cnsrx.cn)、網絡信息採集大師(www.netget.com.cn) |