过期域名预定抢注

 找回密碼
 免费注册

採集概況和採集軟件實例介紹

[複製鏈接]
發表於 2008-2-27 20:10:03 | 顯示全部樓層 |閱讀模式
常見的採集有大致分為兩類:cms等自帶採集,採集軟件。
cms等自帶採集:
缺點是效率低、採集不夠靈活。php或者asp程序實現採集,這種方式採集任務一多容易卡死。
優點是和cms本身能融為一體,便於發佈。
採集軟件:
: x5 Z3 m; q4 E9 |# f
缺點是發佈的時候不同的cms需要不同的接口處理。

! J; `( |: R2 O9 Q0 A- F! _優點是採集效率很高,採集速度很快,可大批量任務同時採集,並設置好後可做到定時等無人操作自動採集更新的功能。
cms自帶的採集在任務量少、網頁結構簡單時是十分有效的,這裡只說下dedecms的過濾規則
{dede:trim}你需要過濾的內容{/dede:trim}
自己使用和結合網上的總結了下過濾html一些代碼的正則表達式,可根據情況增減,基本可以滿足傻瓜式過濾
{dede:trim}<style([^>]*)>([^>]*)</style>{/dede:trim}
{dede:trim}<script([^>]*)>{/dede:trim}
{dede:trim}</script>{/dede:trim}
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
{dede:trim}<param([^>]*)>{/dede:trim}
{dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim}
{dede:trim}<embed([^>]*)>{/dede:trim}
{dede:trim}</embed>{/dede:trim}
{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}
{dede:trim}<object([^>]*)>{/dede:trim}
{dede:trim}</object>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>{/dede:trim}
{dede:trim}</OBJECT>{/dede:trim}
{dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim}
{dede:trim}<iframe([^>]*)>{/dede:trim}
{dede:trim}</iframe>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>{/dede:trim}
{dede:trim}</IFRAME>{/dede:trim}
{dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim}
{dede:trim}<font([^>]*)>{/dede:trim}
{dede:trim}</font>{/dede:trim}
{dede:trim}<img([^>]*)>{/dede:trim}
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
{dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim}
{dede:trim}<td([^>]*)>{/dede:trim}
{dede:trim}</td>{/dede:trim}
{dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim}
{dede:trim}<tr([^>]*)>{/dede:trim}
{dede:trim}</tr>{/dede:trim}
{dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim}
{dede:trim}<tbody>{/dede:trim}
{dede:trim}</tbody>{/dede:trim}
{dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim}
{dede:trim}<table([^>]*)>{/dede:trim}
{dede:trim}</table>{/dede:trim}
{dede:trim} {/dede:trim}
{dede:trim}</span>{/dede:trim}
一旦採集任務量大或者網頁結構複雜等時,建議最好不要考慮用cms自帶的採集,費時費力,效果一般。
Cms自帶的採集即使是采普通的網頁過濾起來也很麻煩,還是採集軟件爽啊,隨便設下就ok了
其他的cms就不說了,說下採集軟件的採集,採集軟件的採集就像下載軟件一樣,即使網速再慢都不會卡死,經常用cms都知道采上一百的文章都經常卡死。
現在採集軟件很多很亂,基本沒有形成一個品牌,常用的有火車頭(www.locoy.com)、小蜜蜂BC(www.downreg.com)、守望數據(http://mycjq.uu1001.com)、三人行採集(www.cnsrx.cn)、網絡信息採集大師(www.netget.com.cn

評分

參與人數 2 +87 收起 理由
汉的骄阳 + 47 精品文章
妖刀 + 40

查看全部評分

 樓主| 發表於 2008-2-27 20:12:14 | 顯示全部樓層

採集.part2.rar

採集.part2.rar
回復 给力 爆菊

使用道具 舉報

 樓主| 發表於 2008-2-28 06:40:31 | 顯示全部樓層
具體的內容請下載附件啊,太大分成了2部分
回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

过期高净值品牌域名预定抢注

4um點基跨境網編創業社區

GMT+8, 2024-11-24 04:06

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表