过期域名预定抢注

 找回密碼
 免费注册

Wordpress 評論求教

  [複製鏈接]
發表於 2013-9-13 17:45:16 | 顯示全部樓層
月光飛燕 發表於 2013-9-13 07:32 ) @  Y# H( x) t4 L0 I& U
這種評論真的沒有什麼價值啊,而且會k站的& s+ l+ ?) I7 B% h
有3種可能,- N+ n0 O/ {  P, T& N
第1是這些站的後台裡面直接添加的,使用xmlprc,說 ...
& s" ~6 W# V3 ^* N( c$ I- z
第二種比較有意思.
+ Q$ t  J+ ^1 b+ P8 N不過,首先得獲取相對應文章的ID, 9 I+ A  h% {" k) {( D; }
評論那邊有個隱藏的input, comment_post_ID.1 }2 l/ t) N1 E+ [" l8 j
所以還是得先訪問頁面6 ~. j4 u' p) g8 j( v, z( u: q  i
. }, J, }$ J6 a- S' ?1 D( @

+ Y9 Y! s5 f: m2 N4 x/ z
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-13 18:02:14 | 顯示全部樓層
luguokankan 發表於 2013-9-13 17:45
9 I! [, G+ p5 F. d1 v第二種比較有意思.( g& \7 T, K1 w2 |' f' D
不過,首先得獲取相對應文章的ID,
  H8 g4 j' n  l: M: E8 _評論那邊有個隱藏的input, comment_post_ID.

! S( i! B9 r$ |# U$ c/ e, K沒有實踐過,如果是你說的那樣,至少可以不去讀js和大量的頭像等
; r- N, k: s; s0 i# w5 ?如果寬帶充足,問題不大
; j" C. U2 l" Y( x/ r+ J3 p- m5 e& _
" {5 [* M; P1 ~9 e
3 v# }( P9 o1 S' S- Z4 m
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-13 19:15:20 | 顯示全部樓層
月光飛燕 發表於 2013-9-13 18:02 % `6 K6 a0 t9 M0 A+ Z
沒有實踐過,如果是你說的那樣,至少可以不去讀js和大量的頭像等
) A: f4 ^/ u7 _. e2 z+ i' b+ t如果寬帶充足,問題不大
- ]) G) M# o! J- {; b
其實大部分scraper都是只讀取目標html結構,不會去讀取其他文件的, 這些文件包括js,css,圖片的.; ~( }7 L' F: A+ q' N  E- j
% M# `- P8 N" v' p9 d
比如你用php curl下載一個網頁, 絕對就只有那個網頁文件,不會有它引用的其他文件.# Y  D( ]7 {! `+ Y" ?3 r- K

  Z+ T. [4 b/ R( y這幾年不是流行nodejs之類的headless webkit東東,這個用來做scraper,可以支持js. * f5 R7 ?: j3 g- i* I0 S
: C  e7 x3 P1 a6 u3 [' r+ z

0 Q/ f+ E6 X: {2 ]1 [8 a# A6 b) L( e1 M1 A) a, V( u
  U! s" g7 H  ?2 `  z+ Y

2 Z- y! O; E; }
回復 给力 爆菊

使用道具 舉報

 樓主| 發表於 2013-9-13 21:26:53 | 顯示全部樓層
luguokankan 發表於 2013-9-13 17:45 & M) T, @' d9 w; z8 e( `% J
第二種比較有意思.* k1 ^. K! i% i
不過,首先得獲取相對應文章的ID,
5 @0 f% p  _. E! k" w5 \  Q評論那邊有個隱藏的input, comment_post_ID.

9 P% K0 A/ u  b; m9 ?5 f+ ]/ n我覺得你的思路對路的,假如直接post到 wp-comment-post.php 的話, 就給以繞過下載那個超大的網頁了。問題就是要弄個腳本拿到文章地址的 文章ID, 我們不可能一個個的去查文章ID的
9 F5 w" M# M1 G4 h1 _# _/ L
6 r9 R( s5 f: A- a3 }9 v
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-14 07:06:17 | 顯示全部樓層
HONG 發表於 2013-9-13 21:26
% t  t! U- |: {- C$ r) P3 p- f) u- ~我覺得你的思路對路的,假如直接post到 wp-comment-post.php 的話, 就給以繞過下載那個超大的網頁了。問 ...

$ {2 `' A4 x& x) m' @: M對啊,這個方法的局限就是你得先找到post id.% w' ^1 J0 n7 ?) ?  ~
0 y/ n. Z$ w1 C( W2 F: c  F/ e# k7 @
不過可以猜啊. ; ^% V& n/ \, S, R. ~1 J
www.test.com/?p=xxx + }% ~) `, d  x$ V$ C/ ]+ d& \
, w& t6 c* V2 _8 B3 Q% s1 r
你發header請求驗證頁面是否存在.9 D* J; B( M0 W7 [1 i; g8 q9 L5 D4 k
) p- ]0 `3 x* e! h* p9 ]
用header就避免了下載整個網頁了,對不對 1 }/ g: D0 a# a9 j' a
2 a/ o6 i( I# S7 b7 y: H' v  J0 P
那麼多spam, 肯定comment不需要管理, 猜對post id直接post到wp-comment-post.php% ^, b! ]) {$ N! H$ T( x$ F
, ?3 ?* F( W0 b4 T  q

, ^+ B" f; _+ e1 f! q
回復 给力 爆菊

使用道具 舉報

 樓主| 發表於 2013-9-14 11:56:03 | 顯示全部樓層
luguokankan 發表於 2013-9-14 07:06 ! E% }. a4 e  v; y% i
對啊,這個方法的局限就是你得先找到post id.5 ]# C9 H3 i4 y' @* X/ }3 R) R

! b) i, v8 M! U9 v5 t7 {不過可以猜啊.
: V" Q0 M. D! O0 `
嗯,對於 id在鏈接中的話,我們很容易用php 腳本拿到。 但是,文章偽靜態了呢?比如這個
0 c" {2 q6 w1 {; c4 l. l. @2 c' Xhttp://arcadegameworld.com/play/stone-age-mahjong-connect/
) J" n& f/ R2 q* z/ j$ l* l; _+ H) m+ G) R* d
我對你說到的header 辦法不是很明白,能否明示。: d* u- [% s( }$ y8 D+ z  r7 W3 H
或者請路過高人,加以指點: 如何能夠用php 或者其他辦法通過博文地址拿到ID,比如上面這個地址。
; B" U" ~. G: `4 j8 y/ }關鍵是: 有的博文很大很大, 一般常規採集的函數 php file_get_contents 可能不好使。2 C& X+ _* X' `! N7 E3 j
4 v0 _- J; ^* k' _
今天,就在這裡碰碰運氣,看能否解決我的難題
; p, b! J5 l6 S' f% ^
- m  ]; k9 Y: k$ }& k0 M
7 `8 s6 |+ G/ |, Y7 d
9 w+ I+ x& z4 Z0 m, f1 f! Z" ?
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-14 12:21:55 | 顯示全部樓層
本帖最後由 luguokankan 於 2013-9-14 12:23 編輯 . Q  h$ q$ o9 y4 \/ W
HONG 發表於 2013-9-14 11:56 , `& u2 a$ u, x' D
嗯,對於 id在鏈接中的話,我們很容易用php 腳本拿到。 但是,文章偽靜態了呢?比如這個
" x, j: n2 B3 H: S- c! P8 u3 Ehttp://arcadega ...
, J: r+ O& W+ A0 b& O/ T
額,我說的是猜....
, K- u: r* C4 A0 W
/ c2 T" i# u  a' e! E! _& A啟動了偽靜態, 比如: www.test.com/hello-world5 {5 x3 S- b  v5 f! {

7 U% C* ~# |- w" {2 Y5 h4 T你還是可以通過www.test.com/?p=1訪問的
# y- t9 M8 Q. z& O" |& z, U2 f: y+ n' p
至於header請求嘛,  你知道get, post吧?  你自己查下吧. 跟ping差不多吧.
5 Z# B2 b/ S+ [- v) I8 C, J' K+ b; ~2 _; i5 ?; W
之前比較懶,沒有動手測試. 現在給你看下header請求的結果# q* P% T" I* V0 N, m( b

4 _: Y2 k6 L4 w: {; K" i8 Z8 l Screenshot from 2013-09-14 12:18:25.png 0 `! w3 c, k4 X! c

+ L3 u' A8 \. c$ X: ?1 q1 z. j+ i9 C沒想到文章id直接在headers裡面. 我算半個高人吧
& |" l" H% j2 ]) R2 t' l0 ?, ]( n. P9 E; v
還有,我奉勸你別使用file_put_contents, 用php curl吧, 支持header請求- z5 }# j  n7 \9 ^3 S
" U, m4 ]3 ~. z# O4 Z0 X

; V. K- `, E+ I. _& X7 _5 T6 n6 a% E& G# w$ W  c3 c

評分

參與人數 1點點 +1 收起 理由
HONG + 1

查看全部評分

回復 给力 爆菊

使用道具 舉報

發表於 2013-9-14 16:17:04 | 顯示全部樓層
樓上高手,直接在header裡查id; n  a' ^: X& M
回復 给力 爆菊

使用道具 舉報

 樓主| 發表於 2013-9-14 17:23:29 | 顯示全部樓層
luguokankan 發表於 2013-9-14 12:21
2 H1 R8 R8 _5 o; c額,我說的是猜....
3 }# ^3 p1 R  T# q0 p$ L: P- Y: S
0 I: D2 Q6 c8 }4 K1 _( j$ Z% g啟動了偽靜態, 比如: www.test.com/hello-world

( b/ L# w5 G+ h; A: I* D謝謝您,經過您的指點,我已近實驗成功了3 k$ U* F! y- D8 X

/ r3 A3 ?" a( d+ o
回復 给力 爆菊

使用道具 舉報

發表於 2013-9-14 17:32:20 | 顯示全部樓層
HONG 發表於 2013-9-14 17:23 4 Y6 m- n5 R0 T( B
謝謝您,經過您的指點,我已近實驗成功了
( X7 b1 \# n/ w. Z; [( m
做出來記得給我一份啊
1 a3 s- l/ a1 c4 L( y0 ?: |4 c  Z" A* G; |9 [

評分

參與人數 1點點 +1 收起 理由
HONG + 1 虽然你不缺分数,但我还是愿意给您,聊表心.

查看全部評分

回復 给力 爆菊

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

过期高净值品牌域名预定抢注

4um點基跨境網編創業社區

GMT+8, 2024-11-25 21:29

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表