过期域名预定抢注

 找回密碼
 免费注册

一個防採集思路

[複製鏈接]
發表於 2006-10-17 12:08:03 | 顯示全部樓層 |閱讀模式
前段日子接而連三發現自己站的內容給人採了,有點鬱悶,於是又開始研究防採集的策略,一點想法,在這裡和大家交流一下。
9 m/ K  D6 W! Y; c6 y
1 P( ]% g2 e' s" k/ f( |) B隨便在網上搜一下「防採集」,會出來N多結果,基本上都差不多。但在實際應用中,很少可以用得上或者難以實現。總結了一下,隨機碼和隨機模版可以防止一些採集系統,我之前的站也這麼做了。但現在的採集器功能實在太強,特別是隨即變量的出現使隨即碼完全沒有了意義,對於隨機模版採集者可能會花多點時間進行研究,但依然是可以採到的。% H% H. |) {9 H- j

) j8 @( K9 N$ @- B3 a採集系統的原理基本上都是利用代碼中存在[唯一的開始點]和[唯一的結束點],那麼,想徹底的防止採集,就必須讓代碼沒有[唯一的開始點]和[唯一的結束點]。# Z' S0 k; G) w$ n
+ e3 _. @. U# k& e# P+ t$ d8 O
   下面分析一下一般頁面的代碼結構:
# {/ |. \6 [- @  Z. U
  @" q( m+ M& [. ~<html>
4 y& r' I+ v$ H* O0 r3 n<head>' F/ Z6 l! L" x1 S
<title>標題塊<title>
5 V9 ~" b7 \1 E9 b# b</head>
$ |  G2 r! C% h: r. k* B<body><div class="content">內容塊</div></body>
$ A& j/ W) E# Y& r. ^9 T1 _* g</html>3 v3 w: C& [* J+ w1 w9 G
1 g1 i1 V7 |' D) k% K; O5 ~; E
當然實際頁面中間會複雜很多,這裡只放上基本的結刮乙??析。很容易看出來,採集者採集這篇文章的內容會以<div class="content">開始以</div>結束。那麼,如何讓這些唯一的開始和結束不存在呢?我想到的是讓頁面中存在兩份一模一樣的代碼,那麼無論任何地方都不會有唯一的開始了。至於兩份一模一樣的代碼頁面顯示呈現出來的解決方法可以用DISPLAY或者註釋的辦法讓頁面正常顯示。比方,按上面的例子,我們代碼可以這樣寫:) e8 g% `" ?- ~/ b+ q: ]
/ U0 c; _, {# M- V0 n& c
<html>
# v- r& {% V/ v9 m, j<head>, W5 k/ S% a5 p- D4 ]2 K& I
<title>標題塊</title>
- U" p, q* X5 u" B  [9 B</head>
* k) u- @" b9 Z: i) s<body><div class="content">內容塊</div><div class="other">其他內容</div></body>6 Q2 q, l% V) Y, C2 z
</html>
$ w$ a, @2 ?% G; c<!--* s# T8 B5 ^( Q" \
<html>" U3 l3 ?( M% F. q
<head>: Z# b* X0 @5 w9 w) J
<title></title>6 j9 A% s) {1 U& d+ \2 m( n
</head>% |- ]) a; W3 b# [6 z; @
<body><div class="content"></div><div class="other"></div></body>
% e4 I0 l: g7 G</html>+ {- H  X2 ], I) {5 K9 X
-->! |' H. E1 ~6 h. n. A1 `

. p2 V; a6 b8 H( s$ h上面的是實際上的頁面代碼,下面的是以這篇文章的模版代碼註釋多一次。
# m. ?) S! \* @- {0 U7 Y6 n* O# `! m. o3 Z1 M2 ^
或許你會說,這塊內容
: o" f0 X5 M' W: ]! H; r+ L  ?9 S9 c
<!--
) p/ B6 v+ B+ L/ \( g+ K<html>
9 Z& B- P2 N$ l/ s% w- u<head>
; |* H5 X: x5 |# H<title></title>
6 a  t. Z6 C9 L</head>
0 t& x2 i& G! N3 F& u3 {<body><div class="content">
" s" j% L8 y% Y- s( Z9 ]; W
/ L1 ~) \2 o& u0 J& m$ o是唯一的,然而實際上的頁面會比這個複雜非常多,會多出非常的內容塊,也就是說中間會有非常非常多的變量。  Z  D+ k4 v8 j
0 [+ M" x1 ^* `: r5 w
  事實上,這種方法只是一個思路,第二份代碼可以不需要是整個頁面的複製品,而只是某一部分。當然這樣的方法同樣存在弊端(或許任何事得到一些注定要失去一些),就是會讓頁面的體積增大 ;] 如果不是將代碼複製一份而是將整個頁面內容複製一份出來,搜索引擎會不會認為EMU呢......
您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

點基跨境 數位編輯創業論壇

GMT+8, 2025-9-19 01:12

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表