那個鏈接只是Amaon站點鏈接的一部分,由於Amazon產品太多,所以這個鏈接只是一個索引,壓縮包裡是是一個xml文件,用FireFox或者IE正常看,當然用高級點的編輯工具也可以。垃圾IE的問題是打開大一點的xml文件基本就卡死了。
" ]: N$ q- b) D( J v繼續上面那個xml文件,這個文件裡有一大堆http://www.amazon.com/sitemaps.US_detail_page_sitemap_desktop_2012-12-17_107-1.xml.gz這種鏈接,這個壓縮包裡的xml文件才是真正的到產品的地圖,包含大量http://www.amazon.com/Coolpad-Quattro-MetroPCS-Premium-Combo/dp/B009D3DNQI這樣的鏈接,每個記得有4萬個還是4.5萬個
& ~6 o( _4 S& m- Z+ |, ?( @; O- c- s4 j$ K1 a
至於這麼多鏈接有什麼用,就得看自己的需求了
2 T+ c1 r# Q' B& D' `% O M當時我找這個是想做一個每天抓取每個Amazon產品價格的插件的,這樣就可以顯示Amazon產品價格曲線,也算是個需求了。但一看有這麼多產品,被嚇呆了,每個月抓取上億個產品的價格,不是幾台服務器能搞定的,所以沒做下去 |