过期域名预定抢注

 找回密碼
 免费注册

請教什麼方法能把amazon整站採集下來

  [複製鏈接]
發表於 2015-1-1 07:53:38 | 顯示全部樓層
自己寫爬蟲把這個網站爬下來
$ `5 V1 z9 O% s0 ^5 I
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 08:39:08 | 顯示全部樓層
leexiaochong 發表於 2014-12-25 10:42
+ D, a7 O3 K" e& R" z樓主,我只能分享這些了,只是產品的URL和URL中的product name
% }( m: @- M0 X4 i$ g) V# N3 r
求分享採集思路,貌似翻頁有最大限制,無法全部採集
6 Y/ g+ Y9 T/ i- {0 o. b( n. s; ?) F" P- U8 T# ?; g6 p
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:32:30 | 顯示全部樓層
熟能生巧哇 發表於 2015-1-1 01:29
" Q7 j& E; K" V) J8 s1 olucene  是java的把? PHP 用不了把?
! w" X5 k9 t- H" _
lucene是java的,我用.net,使用lucene.net,php我還不太懂了
8 ?6 o1 v7 e4 x. c) F+ {3 @* \% ^4 {
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:34:23 | 顯示全部樓層
風吹不動 發表於 2015-1-1 08:39 9 B1 y7 k3 [; t7 W1 {
求分享採集思路,貌似翻頁有最大限制,無法全部採集
. R1 x/ h2 i5 u' p; d& h
兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是productdetail即可。重要一點:直接把amazon 的sitemap下載下來,然後再解壓gzip,再將解壓的xml內容給解析出來,取出loc和權重值放到數據庫裡面即可。
0 R  N% [3 y% L# d8 U+ V
/ S. R+ ^. O& S; L& I
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 16:52:10 | 顯示全部樓層
leexiaochong 發表於 2015-1-1 10:34
3 t( s+ `) d; T) r兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是 ...
8 l0 J9 F3 R+ Y, h. \; x
sitemap贊一個,去試試          $ L8 r) ]& v" r$ h6 H+ G5 U0 c" a

( R7 }( D4 f- F5 Z: l% G: B; @
/ S( I/ ~, R* L# \( o
回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

4um點基跨境網編創業社區

GMT+8, 2024-11-27 12:57

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表