过期域名预定抢注

 找回密碼
 免费注册

請教什麼方法能把amazon整站採集下來

  [複製鏈接]
發表於 2015-1-1 07:53:38 | 顯示全部樓層
自己寫爬蟲把這個網站爬下來
5 T8 j7 [6 I6 C2 i4 ]
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 08:39:08 | 顯示全部樓層
leexiaochong 發表於 2014-12-25 10:42 1 y; ?+ C! L  c, m
樓主,我只能分享這些了,只是產品的URL和URL中的product name

  Y9 I3 ^+ f; T5 S) Y4 l- a求分享採集思路,貌似翻頁有最大限制,無法全部採集: [# e6 X; t5 n1 y; S$ |
! y. F# _1 `: j- B
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:32:30 | 顯示全部樓層
熟能生巧哇 發表於 2015-1-1 01:29
$ K; |' `7 e4 |* K2 `lucene  是java的把? PHP 用不了把?

4 }( T% K4 E, {- ^lucene是java的,我用.net,使用lucene.net,php我還不太懂了! B. J! c( C4 O! z1 V

& v5 I6 N; {5 I/ }4 W9 |8 J5 |
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 10:34:23 | 顯示全部樓層
風吹不動 發表於 2015-1-1 08:39
4 b  Z1 _5 U7 U, q6 m, O3 ~求分享採集思路,貌似翻頁有最大限制,無法全部採集

* d' `( g7 V  L& g& m6 J7 @( {兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是productdetail即可。重要一點:直接把amazon 的sitemap下載下來,然後再解壓gzip,再將解壓的xml內容給解析出來,取出loc和權重值放到數據庫裡面即可。: x$ m6 s8 Z6 q9 l

6 }9 k' r( \8 R/ P% `( D
回復 给力 爆菊

使用道具 舉報

發表於 2015-1-1 16:52:10 | 顯示全部樓層
leexiaochong 發表於 2015-1-1 10:34 ; @9 D& P% _0 }/ l! h" U- u7 @
兄弟,換個思路吧,不要跟著amazon的頁面走,也不要想著獲取list然後再獲取productdetail,採集只需要的是 ...
& E2 Z  K; {# R2 D0 W
sitemap贊一個,去試試          6 a6 G! G+ I* ^2 q5 u
5 C+ Y, O( N7 P9 D% H) Y3 ]& \

2 [. q  u: e3 }, S1 X3 A) ~: A% D
回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

过期高净值品牌域名预定抢注

點基跨境 數位編輯創業論壇

GMT+8, 2025-2-17 18:54

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表