过期域名预定抢注

 找回密碼
 免费注册

一個防採集思路

[複製鏈接]
發表於 2006-10-17 12:08:03 | 顯示全部樓層 |閱讀模式
前段日子接而連三發現自己站的內容給人採了,有點鬱悶,於是又開始研究防採集的策略,一點想法,在這裡和大家交流一下。/ ?- B/ W8 s! |9 b/ a" K2 [' [
  u4 i5 O4 ^9 [& a! l5 k
隨便在網上搜一下「防採集」,會出來N多結果,基本上都差不多。但在實際應用中,很少可以用得上或者難以實現。總結了一下,隨機碼和隨機模版可以防止一些採集系統,我之前的站也這麼做了。但現在的採集器功能實在太強,特別是隨即變量的出現使隨即碼完全沒有了意義,對於隨機模版採集者可能會花多點時間進行研究,但依然是可以採到的。$ i; [! w& B, B8 J

$ E0 I0 e0 Q" D/ H- |7 o採集系統的原理基本上都是利用代碼中存在[唯一的開始點]和[唯一的結束點],那麼,想徹底的防止採集,就必須讓代碼沒有[唯一的開始點]和[唯一的結束點]。% v! |* q/ U! F; W: u2 m" T5 D
% ]# D* k2 T/ t8 O+ J
   下面分析一下一般頁面的代碼結構:5 t2 w5 R0 i) W
" |1 p  {1 t/ z
<html>: X9 C3 S1 i. ]0 t; r' |' N0 a
<head>
* i% ^2 r! X) @/ ?1 `4 V) J+ Y<title>標題塊<title>
2 j: \, k1 P9 I</head>
% z5 ^* {, g. o4 c<body><div class="content">內容塊</div></body>5 h& u. ^; d; \" z
</html>
1 @" Y  t# |: u& }' J* G, b8 K( a1 i
當然實際頁面中間會複雜很多,這裡只放上基本的結刮乙??析。很容易看出來,採集者採集這篇文章的內容會以<div class="content">開始以</div>結束。那麼,如何讓這些唯一的開始和結束不存在呢?我想到的是讓頁面中存在兩份一模一樣的代碼,那麼無論任何地方都不會有唯一的開始了。至於兩份一模一樣的代碼頁面顯示呈現出來的解決方法可以用DISPLAY或者註釋的辦法讓頁面正常顯示。比方,按上面的例子,我們代碼可以這樣寫:% u+ p. R) n( }$ D4 a, l# u

: f8 M9 O3 i3 j! @<html>) g6 B( v# J) c3 c# U3 ]
<head>
4 `5 N* c4 h9 R) }<title>標題塊</title>
6 t5 g9 H7 I) U</head>
1 D- W9 u& [4 n3 U0 O$ @<body><div class="content">內容塊</div><div class="other">其他內容</div></body>
5 |  K& s! \1 a5 E( P</html>* c5 q+ }. u* |
<!--/ _9 p$ A1 H. Z5 _6 c  m
<html>) v7 ~0 i7 J9 Q( J, R; g9 m
<head>1 q( W. O# n7 b* E) c) d4 p$ {6 p1 B$ M
<title></title>, J6 V, M! Q% N+ L7 E
</head>
% k1 e$ j5 C0 X6 ?& P<body><div class="content"></div><div class="other"></div></body>9 X- P! x9 ^2 l0 W; Y
</html>
- X, f6 j- a9 b6 p7 i9 b0 K-->
1 [6 w. {3 E. S: w2 a: z8 T
- ?1 O$ L3 ]4 F上面的是實際上的頁面代碼,下面的是以這篇文章的模版代碼註釋多一次。
( r( F2 t9 d7 N! _8 o* z- Q& Y  x9 e5 A3 C" t& f
或許你會說,這塊內容
5 v4 W: Q3 d9 @. E6 J* G) r
9 E" G( v& }3 `) L: i" |4 N! I<!--4 R, Y* A& p9 ?2 S! o
<html>
3 v  z' [$ ]! p% X; n<head>
9 I0 i# `' y# ~/ Y1 J  m" X: d+ q<title></title>8 g. B. P/ D7 u- m+ n
</head>
+ U; P/ E( E: X4 u* o  s. p' {<body><div class="content">
: q$ j# I& P" g. U8 ?( ]& ?7 G: Y7 N) \
是唯一的,然而實際上的頁面會比這個複雜非常多,會多出非常的內容塊,也就是說中間會有非常非常多的變量。* X" s7 G. w) q; M2 a$ D
- K- f6 x1 L$ _& X& f8 }8 l
  事實上,這種方法只是一個思路,第二份代碼可以不需要是整個頁面的複製品,而只是某一部分。當然這樣的方法同樣存在弊端(或許任何事得到一些注定要失去一些),就是會讓頁面的體積增大 ;] 如果不是將代碼複製一份而是將整個頁面內容複製一份出來,搜索引擎會不會認為EMU呢......
您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

點基跨境 數位編輯創業論壇

GMT+8, 2025-7-2 10:55

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表