过期域名预定抢注

 找回密碼
 免费注册

從0開始學採集------中級篇之前期準備工作:本機搭建PHP環境

 火... [複製鏈接]
發表於 2014-10-28 16:00:57 | 顯示全部樓層 |閱讀模式
前言:
, A  Z% i7 z3 m在初級篇介紹了利用火車頭採集內容並發佈到wordpress的過程(帖子地址:http://www.luosuo.net/old/thread-121090-1-1.html),希望對新人能夠有一些幫助。火車頭有它的便利性,上手簡單,基本上研究幾天就可以上手採集了。但由於它畢竟是一款商業軟件,不掏錢買商業版,限制多多,用起來不爽。當然,我沒有用過商業版沒有發言權,也說不定用起來很爽。兩年前用火車頭免費版時感覺由於功能限制很難實現一些稍複雜的功能,果斷放棄,轉投用PHP採集的路線。
1 a  n, a8 {! P" x( P; a2 F3 f/ `
通過在論壇泡了幾天,也對大家有了一些初步的瞭解,我感覺論壇高手、中層、新人個個層次的人都不在少數,在論壇裡看帖子,既能從高手那裡學習到有用知識提升自己,也看到了很多新人朋友在苦苦學習。我自認為自己處於中下等水平,沒有太多高深的技術分享給大家,只能做一些初級入門教程來幫助有意學習的新人,減少他們苦尋的時間。下面我們開始:
$ I: ^2 M% }9 k* o+ s4 Z
* I, T: z: D" f7 |5 I& v

, r0 s% c1 f9 A1 B0 N主角:PHP$ E/ T& b4 H  E; Y4 B% E0 v
PHP(外文名: Hypertext Preprocessor,中文名:「超文本預處理器」)是一種通用開源腳本語言。語法吸收了C語言、Java和Perl的特點,易於學習,使用廣泛,主要適用於Web開發領域。上面這段話是百度百科關於PHP的定義,實際學習起來也是入門較容易,想學深入也需要付出很大努力,同時能實現很強大的功能。我們使用的wordpress、dedecms、discuz、ecshop等等都是使用PHP開發,所以,除了採集也還是有理由學一學PHP的。, O' i0 ?; y) e. R5 U, r% z7 `

0 G: @" P; ?# e; O5 h, q- F6 x8 Z

( X6 D! a$ S- M  G那麼既然要學習PHP,首先要搭建好PHP的環境,才能運行代碼。這裡推薦使用環境套件安裝包,不要一開始就去研究在服務器上如何搭建PHP環境,如果這樣只是環境搭建就可能花費你2-3天的時間,作為學習研究一款環境套件就夠用了,如:WampServer、PHPnow、AppServ
0 d/ P& Z: @2 Q, W" C
, p: M/ u, O6 t, n' L$ K8 b( H

$ Y/ z! c& `) ?  x( k' A! s' {9 X2 M- n6 E& z* w

0 L. Y, C+ h7 o, k- e需要的工具:+ W8 ^) T8 I. P; ?4 H
1.PHPnow
) \& `" |, ]$ ]$ M& Y7 `- s2.一款代碼編輯器。如:EditPlus、notepad
3 W) i" t; H$ `# h$ r
3 i: O6 Z3 P! S6 @8 Y

2 Y( j3 a7 t6 N7 {5 {* g. N
0 P$ x0 N8 g0 C: Q$ C8 Q
! t9 e% e1 s% e' v
步驟:
) J$ e/ E2 v9 f/ [& S3 U1、安裝PHP環境,以下引用phpnow網站文檔. q4 S* k9 m0 ~3 S0 a( l, ]9 q

9 O$ C* }1 K4 k$ `4 f/ q首先從下載 最新版 PHPnow。PHPnow 有兩種封裝,一是 exe 自解壓版(推薦,本文針對此版),二是純 7z 檔案(沒有 exe 自解壓)。
# M1 y+ `; B  m. @8 U7 ?  J
5 f3 f& a" ~9 A0 v  Z

- C# J. T- t3 D, v執行 PHPnow-1.4.x.exe 出現下圖所示。回車即可。  X6 F9 p1 C( z' R

9 t; x+ o  P3 E$ L$ z7 j+ b" V/ w$ W- R; U1 ]0 E

( p6 A; G: D( ?4 l+ u/ Y: i圖-1:解壓對話框
5 B6 @2 b1 P% `, _# V
1 o1 v/ l4 R1 J8 J* |) n2 a7 F
; z- y1 r  z; p& w

! O3 C4 z2 r! T* `在自動解壓完畢後,將自動執行 Init.cmd 進行初始化動作。如 圖-2 示:
6 y( X% p* g: `1 J0 h期間可能出現防火牆提示,請允許。
/ p* h: k: b! J) u, Y7 g" v2 a2 L& `; k1 b& a- Y0 a9 `

+ D0 u+ o; z3 F4 h* o

% x, L* ~/ _) u# U4 x圖-2:Init.cmd 過程+ o4 Z0 t- |) {; F. K# x

- C. x4 u0 \- m4 L# W7 b* r0 f
! ~9 Q7 W% X' K3 |0 q% F) w
( L' @0 Z" m4 O/ j: n

2 Y6 y$ {9 w- y" }圖-3:解除防火牆8 v3 D% h$ y0 L! O; [$ X6 i. f
3 s% l3 V, P$ m; C8 \3 G
) Z1 O% d6 r& k! U; ]* S

9 q2 e- _* A6 m+ T4 f8 UInit.cmd 十秒鐘即可完成。全部完成後,將自動打開默認頁。  G, \) m' Y3 [* G( I% r
(如果沒有,試試手動打開 http://127.0.0.1
4 \8 h/ x' z; L, v
. C) _3 ]# c% ~4 B7 N' O/ E) A9 `
4 N# c/ x3 S( S( n- y
9 E8 Q' U' d% Y# D! L6 \
圖-4:搭建成功
  j$ n1 J+ P& W2 L

- X" d& Q; j  d: Z6 U+ a2 S6 h% k* N) Q. s  q8 c) J9 G

$ L) k' W" c; C3 K  T如果你只想搭建一個網站,上面的環境已經足夠。很都時候我們需要開設多個獨立的網站。例如論壇和主頁分開、和朋友共享服務器等等。這時就要用到 虛擬主機 了。( l, T( l+ k2 v
9 B* J  [3 K: ]2 h+ f6 f

3 ~  p! i" m, ~* p  V% o下面說說 PHPnow 虛擬主機的使用。很簡單。
( R( ]8 J& d5 n0 T! r+ Z7 S
, _; Z. |% ]/ T6 |
+ l- P  l/ c& _4 r) L
雙擊執行 D:\PHPnow\PnCp.cmd (可能你的安裝路徑不是 D:\PHPnow),輸入 2 後回車。& L3 [& X: S. J; V7 W+ s9 x) [
按照提示輸入新建虛擬主機信息。如 圖-5 所示。8 @+ [$ d: \5 m6 [& D  y
2 ^' x) i' ~% A4 Z% `

6 A4 t3 ~$ `7 g; \9 d3 r

$ B( k2 p8 ]2 p4 m/ n- v7 P" `% D圖-5:開設虛擬主機
  u# @7 L8 d- u8 B! \9 b& N
$ e+ x+ O  t' E% I. X
% U0 v% y2 ], n2 t9 ?0 E1 x+ n! [
7 \, m, J" j& L$ R0 l3 u0 M# T
輸入完信息回車後,將自動重啟 Apache 以便生效。
: z; c( Q4 Y2 P. x然後訪問剛才添加的域名,注意事先解析好域名指向你的服務器 IP。
1 \, G* S' ~/ ~5 _: Y) e4 Z" |9 v7 |, c! j& R- N# z/ e
7 K! x/ a4 Q  J1 }4 L! }
如果沒有域名或者不會用,可以通過編輯 C:\WINDOWS\system32\drivers\etc\hosts 來使用「虛擬域名」。
# T! W8 z: s. M/ {4 h" K  _4 W本例中的 bbs.test.com 就是在 「127.0.0.1 localhost」 的下一行添加一行 「127.0.0.1 bbs.test.com」 實現的。/ C! ^9 a& I1 v2 `3 `% [
+ w7 S* }4 a' N& o1 l3 C
' w% P& `+ h6 {) L7 h
5 F. R6 |. L% d1 m/ b0 A1 e
圖-6:虛擬主機開設成功
4 t3 e/ p3 |& M
; M! |; v* n3 Y
1 Y1 z* }+ f) Q. ^

- M$ I: c/ A% A' A  N/ E6 l. m可能你還需要為每個虛擬主機分配 MySQL 數據庫,下面介紹下如何使用 phpmyadmin 分配用戶和數據庫。
/ x5 L2 Y" n  N) Q* Y2 [4 U8 G0 `6 u/ g0 c5 ^
, {  V! [5 q$ t  q" a( V% C
打開 http://127.1/phpMyAdmin;用 root 登陸。: B* q- z4 _" L2 }
然後點擊 「權限」再點擊 「添加新用戶」。
2 y: Z# G7 g; t填寫好新的 用戶名 和 密碼;' v! A; }, X- ^+ o5 t" P7 i% \# Q
選擇第二項 「Create database with same name and grant all privileges」。
2 M/ C- }0 s+ j: C" J3 |' z其他的保持默認;需要提的是,全局權限可不要選,除非必要,否則全不選。
/ l/ F. U8 `7 a) c點擊 [執行] 即可完成。難明白就看看圖吧。* n5 B" ^4 H6 v
: a6 e% x0 X# B9 x5 j/ G
( Y1 e, k" I+ O
4 S* l* g7 r0 A6 m2 Z9 N
圖-7:添加數據庫用戶。
% ]3 V' S& n3 n4 c) r

, M: q  r( Z; A- m+ Z0 T5 F3 h( }' v  T' g! X9 F

( i( G' e3 N1 H把剛才添加的用戶名和密碼交給用戶即可。注意 root 擁有最高權限,不要輕易把密碼交給別人。5 p- p! w" t/ L" a; H+ ^" V

7 L& c3 I+ H& I3 j

% Z/ {* G. f: q$ {1 V8 I好了!你現在擁有了一個專業的 PHP 服務器環境。什麼 Discuz! 6.0、PHPWind、DeDe、PHPCms 全不是問題,馬上開始你的建站旅程。
5 `! I9 W! _* e% j$ P% T3 d4 _9 E, {& j0 f* y

' n$ y7 z6 C4 t. X7 B7 I( W9 E2.在代碼編輯器中,寫下你的第一個PHP程序,保存為(任意文件名.php),比如a.php到phpnow目錄下htdocs目錄中。代碼內容為:0 d5 W! l) i. p2 P( t) i/ y2 }
<?php 5 K. ~1 x) h1 h, y# T9 J/ G" _
$url = "http://www.luosuo.net/old/forum.php";// 你要採集的地址
" k2 j9 _3 Y( |/ U3 W) h5 n3 }$content = file_get_contents($url); //用file_get_contents將網址打開並讀取所打開的頁面的內容
- v# R  S& m, n4 K2 F$ M. Recho $content; 4 |$ X& h+ n) j
?>

) M+ g/ B6 ~& b: t6 w/ E7 N9 ?: x2 @- `* @( V5 F

' S$ `1 `- c0 R% T3.在瀏覽器中輸入:http://127.0.0.1/a.php看看結果吧。
  |9 i/ B- K2 l2 |( L5 I' s, D) P6 Y* j0 R) _
+ ]4 h' P+ s9 I- }

  H; X' ~" k. Y) N, M% W
6 m2 B4 t( b# x9 b0 J2 o

評分

參與人數 11點點 +48 收起 理由
ryan2101 + 2
useejack + 1 谢谢分享!
roror999 + 3 谢谢分享!
ebookyx + 2
xx19941215 + 1 鼓勵
月光飞燕 + 30
tkmy + 1
foxconndmd + 1 鼓勵
michaelr + 1 有見地
zengfu + 1 認眞參與
乐乐 + 5 感谢分享

查看全部評分

回復

使用道具 舉報

發表於 2014-10-28 16:19:41 | 顯示全部樓層
很辛苦,鼓勵一下。。。。# R2 l9 i* o% I1 C1 Z
回復 给力 爆菊

使用道具 舉報

發表於 2014-10-28 16:23:58 | 顯示全部樓層
期待樓主的高級篇
  K6 l) D( u$ l$ b+ \
回復 给力 爆菊

使用道具 舉報

發表於 2014-10-28 16:28:00 | 顯示全部樓層
不建議使用file_get_contents採集,推薦使用php的curl庫
" X! h8 ?9 J6 |+ v6 O
0 ~. M9 V$ G1 X6 \使用file_get_contents函數時,當獲取的$url訪問不了時,會導致頁面漫長的等待,甚至還能導致PHP進程佔用CPU達100%,
: x: n* }" v- z) k+ h1 x8 r7 Q& ?
# o% \7 C/ ]- `& h9 ?. F使用curl獲取頁面比用file_get_contents穩定的多,快速的多,功能也更加強大$ k: b$ E8 H' B3 H; d
& e, c' I9 W2 _7 c
包括偽裝ip啊,代理啊之類的,: j5 C' u/ Y* R

* A- C+ |1 v9 k/ L: k- y相比之下,file_get_contents函數更適合讀取本地文件0 M- ]3 f4 j2 B  R; d! a
9 @7 D! E- h: ]- Y0 b6 ]+ P

3 t- |- G* U: G! c引用一下某個測試兩者性能的數據,下面在一個在國外網站上看到的二者的讀取google.com首頁的測試:( n* i7 \* e5 I/ J2 z9 e; F
- z0 ~* R/ J$ c9 x
Fetching google.com using file_get_contents took (in seconds):
7 L) d* I+ J; E8 s ' z0 {( A4 S- h( b4 N2 S  i
2.31319094
$ y/ M! r1 |0 u  y! l# ]1 E! o2.30374217
3 T% s, N, I4 o6 r& s, ?) [; [2.21512604* y! n" O# G9 b4 |, h  u
3.30553889
9 m/ ^. N# O, V7 m4 n* T2.30124092
! x' M3 G: z) Y, _' K5 P; b
2 R- S+ r' w" P$ S5 I6 DCURL took:" V9 T0 H8 Q) R

+ o  _7 \+ [5 P: w1 O; \6 E$ K0.68719101
" m0 z) \& Y( T$ E0.646755934 J: Z: G6 N  S, ~6 L0 Z
0.64326
' \* [) {/ ~2 w0.819831131 R, V4 l; l* n) b
0.63956594
) ]% d0 _9 X* u& A( a/ d# Z+ O9 n
. B" `7 d7 d8 f0 a' [- e9 K/ q2 `2 p8 d高下立判,推薦使用curl
1 O0 \* ~7 E) a7 o1 a8 X
回復 给力 爆菊

使用道具 舉報

 樓主| 發表於 2014-10-28 16:35:19 | 顯示全部樓層
mulao 發表於 2014-10-28 16:28
# @$ t  H) s1 K7 {不建議使用file_get_contents採集,推薦使用php的curl庫
0 I9 Y/ }; q1 `" J: P7 F1 G/ |1 C" X: ~9 m+ R, y/ C0 h
使用file_get_contents函數時,當獲取的$url訪問 ...
* `! h$ \+ u+ H+ g; [& ?3 s9 X
嗯。是這樣的。只不過是因為開始標題筆誤,弄了個初級篇,讓大家以為會有中級和高級篇。我的計劃是高級篇介紹curl,畢竟除了效率外,curl還可以實現模擬登陸、發送等必須的功能。( m; |' j3 k  n" `" M' G+ u3 ]
) q5 {6 r7 c! P) A+ |8 D1 N% j
file_get_contents全當是給讓沒接觸過PHP的人瞭解它的神奇吧,畢竟一句代碼就可以抓取到網頁了,先感興趣再入門吧,curl抓取一個頁面得好幾行代碼,沒接觸過的人可能就看暈了,就放棄學了。! G. G) l* @8 V" i/ ?, N7 K0 G
. ^3 Y% Z$ r* L" h4 o$ O6 G

評分

參與人數 1點點 +1 收起 理由
youdy17 + 1 强烈期待

查看全部評分

回復 给力 爆菊

使用道具 舉報

發表於 2014-10-28 16:40:22 | 顯示全部樓層
kevinmy 發表於 2014-10-28 16:35 - m- ~9 S1 h" t5 }3 L, ^$ d
嗯。是這樣的。只不過是因為開始標題筆誤,弄了個初級篇,讓大家以為會有中級和高級篇。我的計劃是高級篇 ...

: w1 g1 E% _5 i9 \, POK0 r% T* ~( w0 f- ~, e0 F
等樓主高級篇            # I) h7 l+ a* e

0 Y; m) t8 A+ [9 L+ k( H
回復 给力 爆菊

使用道具 舉報

發表於 2014-10-28 16:42:33 | 顯示全部樓層
很辛苦,鼓勵一下。。。。
8 O8 q4 I! K6 ?+ p9 g: f
回復 给力 爆菊

使用道具 舉報

發表於 2014-10-28 16:46:09 來自手機 | 顯示全部樓層
頂樓主,這篇講的內容我之前瞭解過。樓主教那種圖片站採集的教程嗎         
回復 给力 爆菊

使用道具 舉報

發表於 2014-10-28 16:58:28 | 顯示全部樓層
頂樓主,期待你的高級篇!晚上就實踐下!6 H4 J7 ]$ P# j2 v
回復 给力 爆菊

使用道具 舉報

發表於 2014-10-28 17:02:53 | 顯示全部樓層
PHP多進程配合異步CURL效率還是不錯滴,更專業點用python。) |  O1 m' D0 d- o' x5 w
回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

4um點基跨境網編創業社區

GMT+8, 2024-11-27 19:18

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表