过期域名预定抢注

 找回密碼
 免费注册

請教什麼方法能把amazon整站採集下來

  [複製鏈接]
發表於 2015-1-1 07:53:38 | 顯示全部樓層
自己寫爬蟲把這個網站爬下來1 c/ g, e5 ?2 v) _& E0 U8 L5 F
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 08:39:08 | 顯示全部樓層
leexiaochong 發表於 2014-12-25 10:42
. b6 {  Y5 o% T% E1 {1 J- u$ c樓主,我只能分享這些了,只是產品的URL和URL中的product name

2 p0 W0 }8 o5 r; C& D- a- @) i* J) H求分享採集思路,貌似翻頁有最大限制,無法全部採集
+ b; \* M( g  `5 S% H6 i$ O0 ]  \3 _& K3 v5 I5 X
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:32:30 | 顯示全部樓層
熟能生巧哇 發表於 2015-1-1 01:29 ( ?5 K& a8 m3 y- m( K) C& ^5 t" y$ t
lucene  是java的把? PHP 用不了把?

  e+ _. @  z5 V8 |lucene是java的,我用.net,使用lucene.net,php我還不太懂了
& f+ _$ _) V8 @2 |" e+ b. G! L) V# J7 n& ]3 m
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:34:23 | 顯示全部樓層
風吹不動 發表於 2015-1-1 08:39
$ X! G% Q. [# l3 P% ]$ n! o. `求分享採集思路,貌似翻頁有最大限制,無法全部採集

6 x# S" L( l) F0 K9 u# a兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是productdetail即可。重要一點:直接把amazon 的sitemap下載下來,然後再解壓gzip,再將解壓的xml內容給解析出來,取出loc和權重值放到數據庫裡面即可。
0 p4 c! Y: q+ t; H1 K% E7 n# w  U& j  a/ {: F
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 16:52:10 | 顯示全部樓層
leexiaochong 發表於 2015-1-1 10:34
' _5 Y1 N7 S: u. ?9 o/ C' p兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是 ...

6 q" M$ D- |$ ~# s  W! isitemap贊一個,去試試          2 \1 R) j# M, V! i& K& ]" q& b- m

: J7 Z( b6 ?9 K# x0 r) t2 q0 F8 Z$ m8 Q/ J& `* a
回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

點基

GMT+8, 2026-7-5 21:27

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表