过期域名预定抢注

 找回密碼
 免费注册

請教什麼方法能把amazon整站採集下來

  [複製鏈接]
發表於 2015-1-1 07:53:38 | 顯示全部樓層
自己寫爬蟲把這個網站爬下來
" \+ J6 D% J5 m3 Q/ x
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 08:39:08 | 顯示全部樓層
leexiaochong 發表於 2014-12-25 10:42
  A" U4 g# {! y" b) W8 y樓主,我只能分享這些了,只是產品的URL和URL中的product name

6 @+ V. ^3 n1 m' m2 A; k2 Q求分享採集思路,貌似翻頁有最大限制,無法全部採集# Z$ T+ R6 w5 H9 @7 z  y- i  T

. N6 A5 W! @6 Z
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:32:30 | 顯示全部樓層
熟能生巧哇 發表於 2015-1-1 01:29
! m4 C) S' g* o3 u! R7 d) R5 Tlucene  是java的把? PHP 用不了把?

$ [# j2 P* @% r  e# G# y1 {lucene是java的,我用.net,使用lucene.net,php我還不太懂了
  ?$ d$ D' _) j- N. m" A6 g* A8 ?* Y
: D, w6 {) Y- I9 U8 Q5 h0 K2 m8 ~. n
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:34:23 | 顯示全部樓層
風吹不動 發表於 2015-1-1 08:39 2 J+ J5 i% G  _% q/ ^3 }- Q
求分享採集思路,貌似翻頁有最大限制,無法全部採集
5 Q: M0 c+ c5 m( w7 r# g
兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是productdetail即可。重要一點:直接把amazon 的sitemap下載下來,然後再解壓gzip,再將解壓的xml內容給解析出來,取出loc和權重值放到數據庫裡面即可。$ Q" D, S0 U7 D4 k/ Z1 m: ^3 i
3 [7 E, W! Q, j* T  s- n3 ^
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 16:52:10 | 顯示全部樓層
leexiaochong 發表於 2015-1-1 10:34 $ k9 ~; G1 J3 K# i  ?
兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是 ...

7 }3 D  k6 j; K+ y  Qsitemap贊一個,去試試         
' v. X+ V, n  d9 R% {( Q$ b0 m4 t, o" ~' \6 ]9 {1 K
# Q: ~; w( q" P- t+ Y+ E7 w
回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

过期高净值品牌域名预定抢注

點基

GMT+8, 2026-7-5 16:08

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表