过期域名预定抢注

 找回密碼
 免费注册

搜索引擎如何判斷原創文章?

  [複製鏈接]
發表於 2010-2-8 11:46:07 | 顯示全部樓層 |閱讀模式
本帖最後由 luguo 於 2010-2-8 17:31 編輯 4 Y! U6 f+ A& Y" X+ Q
; Z% k/ c- {; F0 r8 a' ]: X+ k
背景:
/ u, p% u. O/ v& z( h5 M) V一篇文章,同時被兩個站點發佈。" T- @, a2 ]9 r! J* o

! }8 w) Q. x1 I# W3 ?- P8 j# N! g問題:
6 z% K5 a" J. ^% I( @/ ~9 c哪個站點會被認為是原創者?
4 f% J0 G1 {% W, G6 Y% b
6 N& K& K, S$ U  h' i這裡判斷原創文章的方法是:6 w. h' @  o9 Z$ ^+ h
誰的SERP比較高& {2 w+ X+ L) P$ s

2 m+ M% \$ V3 W. {上面的第二個投票 大概 可以認為 權重較高的網站。
. ?% k' I0 Q- c0 I( Z' c2 l! I; i. v; x% K$ i0 ], b! H
在seowhy看到一個版主的回答很有趣,所以想做個投票,看看大家的理解。1 P& Z3 K9 P% o. c
因為我沒做過baidu,所以這裡默認是google." F9 h0 e& i+ _! |
如果大家的投票是針對baidu,最好跟下貼。
& \0 ?0 k$ ^% v) s. |/ J3 |謝謝。8 l' i2 E6 _" ?: L3 b

9 U. M; ^# \& Q# REdit:
% N, z! G, N7 b6 v5 l稍作修改。
/ i1 x9 m7 w8 x6 G8 {汗,被四樓嚇到了。
單選投票, 共有 7 人參與投票
28.57% (2)
57.14% (4)
14.29% (1)
您所在的用戶組沒有投票權限
發表於 2010-2-8 13:20:13 | 顯示全部樓層
新老站點的原創區分是不同的 " q/ |1 A* F0 B! K
對於英文內容而言先收錄也可能會立即被屏蔽掉索引
回復

使用道具 舉報

 樓主| 發表於 2010-2-8 13:40:22 | 顯示全部樓層
本帖最後由 luguo 於 2010-2-8 13:46 編輯 ' v% H4 S. w% v( a$ d" C
新老站點的原創區分是不同的
; l/ ^7 ]6 ?. X' U對於英文內容而言先收錄也可能會立即被屏蔽掉索引: }- }. o% X. z
seo-greenhat 發表於 2010-2-8 13:20
7 f1 m( }0 x: x) c6 d
這我懂,你的這個答案屬於第二個,如果第二句話指的是新站的話。& a/ f2 z9 m  W+ J: W6 \& `" i
看哪個先被收錄的算。(某個SEOWHY正式版主的回答)
. a  H( r3 W( i& u$ p9 [很想瞭解下,是不是需要給一些人科普下$ A2 _9 `$ _+ h. V) `! w
或者說是如何處理duplicate content, 這點應該對於國內一些喜歡採集的人,有所幫助。
- z: j$ j' W- B
6 p) o0 E. F2 O! y/ m"屏蔽掉索引"是指supplemental results嗎?
回復

使用道具 舉報

發表於 2010-2-8 14:42:04 | 顯示全部樓層
轉一個:  {0 I8 @7 n- Q" Z; }8 W/ K
大家都知道網站內容是一個網站的靈魂,是一個網站的血液,也是影響你網站表現的非常重要的一個因素。那麼搜索引擎是如何判斷一個文章到底誰是原創的呢?
. E1 W# B& y& r8 K+ Y$ _' t
+ G) k# N' \( x8 F3 r- \" a首先要明確一個概念:原創 偽原創) ~3 h. c6 l1 L$ T6 w

1 K* T- z6 n! ?3 C" G原創:簡單地理解就是第一次在網絡上發表的內容,以前沒有出現過的內容。5 _) N2 i: N( ]6 d

( p3 J+ Y9 b. ~. k+ k+ l+ \偽原創:就是從網站找來資料進行二次加工,二次修改之後的內容,如修改標題,修改內容,增加些文字或者減少一些文字等。+ Z3 j1 g" |, I# C- ]7 a

6 y: `4 c! l7 H# J3 `那麼搜索引擎對於原創的判斷是如何進行的呢? 7 @# j$ n% m* o/ I7 \; T, C3 C
) G7 |# @% e& v1 B
  一般來講有以下幾個方面的因素決定: - a$ M) n* f' d* L( h/ n: ]7 g! m, g) z

/ s: ^9 m' G3 D8 O: e$ K  1、快照日期。 ! c* D% u8 _! e+ `4 ^7 V. Y

4 y2 Q! c5 x! v6 v0 c5 ]! Q3 ^& z  2、蜘蛛抓取日期。 & X! Y5 `, x% l/ s: d
- Z  E3 z& Q- U9 P6 [2 j- R2 ]
  3、頁面外鏈的多少。 . Z& ^8 |9 ]2 w- Y- J

+ `% I5 C7 p6 J/ P! t  4、文章修改的程度。
) b  `: R; I: U6 I0 }* z4 w , W3 p9 {- K6 F
1 v$ C$ y  ]# \, y8 U
1舉個例子 如果你在一個網站上發佈了一片文章內容2 d% U; I! x0 M& S) x

4 P& k0 V7 U1 J( m" W- ]: O搜索引擎來到這個網站並且抓取到了這篇文章,放到數據庫,並且在收錄數據庫中沒有發現類似內容,那麼就會被認為是原創。- g  G) X3 ?, {, K9 G) N5 L6 a

" e/ y- g1 M; `5 w4 L8 F& E在這點上有個細節需要注意:
3 x% O% S3 p! m+ `! w9 X8 x3 f7 l8 z2 T( U' m6 R  M
1:文章必須被收錄,如果沒有被收錄,肯定是在搜索數據庫中石找不到的,搜索引擎根本就找不到這篇文章,更談不上什麼原創了。( y/ T* ~0 f! l6 R% k5 r  P2 u6 _/ K

2 X: y0 d. x4 G  W' `7 f2:文章被轉載4 j" G1 }0 f# k. {! Z4 |/ g, O

# s8 Q6 B9 r+ y' ~; v6 ?& |% Y0 p如果剛發表的一篇文章被轉載了,那麼誰是原創呢?5 G& m* w. g: I- ]3 p
% u( u- ]6 V8 |4 h
那要看誰更先被搜索引擎抓取到,也就是更新週期的問題了。如果a站發表,b站轉載,如果先抓取到a站,那麼歸a,如果先抓取b站,那麼原創就歸b站了,所以不是說你先發表了,原創就是你的,這個得看搜索引擎什麼時間收錄了你的內容。, t/ L, j& s: p% y$ E
9 I/ i2 T) w8 C/ J2 r% i3 ~
    3、訪問時間
  W4 {5 B# `1 i6 t% q* o
1 S3 A+ J7 F9 {  如果蜘蛛先訪問了B站呢? % e$ [5 Q( Q, O- C# b
- w1 ^+ R7 S2 p9 y6 ]
  ——當然權重給B站,一般的情況下都會這樣! 9 h5 B/ p/ p* N# K) B

* t! X9 \" E5 ^' r& ^# _  ——如果B站轉載的文章帶了A站的原文章頁面鏈接呢?
% M: T( ], |& H7 ?9 P) ~$ p, P1 M4 u+ F( b
  ——這就很明白了,剛收錄的時候,如果排名,兩條結果一起出現,有可能還是B站的排名好一點。
# c2 H3 L/ |9 ~' j$ D( x1 t8 ~6 |" a% X8 ?0 G2 {6 f3 V$ M
  當然,文章轉載次數多了以後,A站的鏈接越多,對A站的文章越有好處,排名會慢慢變成A站在前面。
' s" i$ t/ H- i9 b/ r* Z3 X( k6 ?2 j' P' Y8 I" q  [5 p
  ——如果另外轉載的文章帶的是B站頁面的鏈接呢?
) I7 H. f1 A) B' B' o4 Q3 X1 }, f# `* |' p8 V
  ——它們如果判斷不好,就變成了一個鏈接流行度的比賽了。 , J7 P8 B7 R( ^3 x! I

/ D% F5 H# `: M! R  不過,如果都有很多外部鏈接,並且相差不大,那麼判斷的規則應該回到原點,誰先被收錄誰就是原創。 ' O0 D4 H! }$ ^

5 e+ N. ^' l# F. |- L  5、快照日期 , q1 [0 D9 h6 M* P; Z
/ H+ l* ^' r# b' X: f' l/ U
  ——快照日期顯示時間最早的,一般就是原創了吧!
: E& K: S+ a! {' z7 }' k1 |$ {" F7 M
* w1 P- d/ r$ ^8 O3 N: V! O+ l7 @3 e  ——不一定,這個說法要在一個更新週期之內,比如說文章發表後一周內,快照時間越早的地址將越有被認可為原創的可能。 3 n, Q& O% U8 G9 H. t

) g% y  L& m$ t" W" z/ a3 V. O  但如果文章都發表了幾個月了,說不定搜索引擎已經重新獲取過快照了,快照的日期就變了!
# p: e; i5 o- [. f
+ ~3 o& d' h$ B1 T  ——還有其它的可能嗎?
% b, o  z3 z# `( Z8 L2 b9 i  r: w: ^! V$ T2 E
  ——有,一般比如百度收錄,他可能會有一個收錄的數據庫,經過過濾後,收錄的內容才會到搜索結果裡來。在這個期間就有一些問題了,比如A站首次發表,B站轉載。蜘蛛先訪問A站再訪問B站。而後可能先把B站的結果放出來了,而A站還在數據庫裡。
5 ]0 g0 _1 X( T% F# t5 |+ s- r3 F' C: J4 H* q
  所以說搜索引擎沒有收錄並不表示搜索引擎蜘蛛沒有訪問過這些內容,也許在搜索引擎的庫存裡已經有記錄了,只是你查的時間沒有放出來而已,就像25號才放出來的內容,但是快照是20號的,這就是搜索引擎的庫存內容,同時這也是檢驗原創的核心時間點。
7 ^: B& q. d8 h7 O, ?& F( q; t5 m) @/ M
  這種情況一般出現在新站與老站之間,A站發表,B站轉載,但A站在搜索引擎的信任度並不高的時候。不過只要是A站先被訪問到的,原創權還是A站的,這是最難分出來的情況,因為我們不知道蜘蛛先訪問哪個站,除非你知道兩個站的網站空間日誌內容,能看到搜索引擎對兩個頁面的訪問時間。
9 @9 N5 r2 o% ]# h* H. Q1 U! T' ]$ J3 R
  6、偽原創
/ i& A& D9 ]6 d* U
2 W5 Z1 m, F8 N- d  ——偽原創也會被認為是原創?
9 A+ H0 t0 O* _1 E& i0 X' R8 I0 `2 B' v
  ——大多時候是這樣的,搜索引擎蜘蛛不能明確分別這些東西,因為它的思維太程式化了。如果你的標題改過,文章的段落改過,那麼蜘蛛將很難確定這篇文章是否有過收錄,也許它可以確定有部分內容是重複的,但它也不能因為這些而將這篇文章確認為是轉載!當然,隨著搜索引擎程式設計的提高,應該會有一個相似度的東西出來,比如文字內容相似度超過百分之幾就會被認為是轉載。 % `4 ]9 h, [' s" ]# W

" i$ q$ u/ Z! o+ ^& P2 Q) T  這樣分析下來,相信大家應該瞭解了吧。只是核桃自己的看法,希望大家吸收自己想要的東西,不認同的了也來提下自己的意見!
1 K" q. a7 ?1 Q: Q5 C* U- ~$ m3 m: D& a4 r
  另外提幾個建議:
) [5 I3 }6 y7 M2 Q& k3 g9 T1 E: _3 G6 c
  1、如果你的站是新站,權重不高,如何讓蜘蛛首頁找到你的頁面並放入數據庫?其實很簡單:用網摘、百度收藏這些工具讓蜘蛛更快的找到你的頁面! 0 n- a; f$ I7 v5 a
8 m3 V& d3 P4 W/ O% ^' ^
  2、大家都有過建議,就是加上自己的版權及內容頁面的地址,別人採集的時候你就爽了,收錄雖然不會快,但最後鏈接多了,你依然是原創內容。
0 |! F; X$ s- A
# J5 c, ~- L' M4 J  W7 z% Q' z  B  3、發表文章等到自己收錄以後再去其它的站點進行發表,同時加上自己的原文地址,這種辦法很有保障!
回復

使用道具 舉報

 樓主| 發表於 2010-2-8 17:27:00 | 顯示全部樓層
本帖最後由 luguo 於 2010-2-8 17:28 編輯 / G+ p+ K, b! A% X! [9 V/ _
; O$ ?0 i) }1 a! K
暈,遇上了這個轉貼王。0 l8 P1 }+ Q  d1 _% F. N) b) M# \8 R$ ?
麻煩你轉貼可不可以直接複製
: I! b5 C& ?) ~0 P7 Z) S- s8 S+ b
2:文章被轉載4 G2 b9 ~8 V5 B5 V$ D1 e
如果剛發表的一篇文章被轉載了,那麼誰是原創呢?那要看誰更先被搜索引擎抓取到,也就是更新週期的問題了。如果a站發表,b站轉載,如果先抓取到a站,那麼歸a,如果先抓取b站,那麼原創就歸b站了,所以不是說你先發表了,原創就是你的,這個得看搜索引擎什麼時間收錄了你的內容。

; \5 ^2 C' o6 H7 ]- x2 [) U/ a: _& y+ D* ~
真是夠汗,我在第三樓,已經說了,我懂.我只是想知道有多少人被誤導 「看哪個先被收錄的算。」
( q4 y6 M! A! q/ U  V很明顯你把這個轉過來,也證明你是被誤導了 哈哈
% H8 x  W2 S: C: A* q' ?; i/ Y「這個得看搜索引擎什麼時間收錄了你的內容。」 有趣。
回復

使用道具 舉報

發表於 2010-2-8 21:03:45 | 顯示全部樓層
樓上的講的都很專業,學習中。。。。。
回復

使用道具 舉報

發表於 2010-2-9 09:23:18 | 顯示全部樓層
太有價值了: R" x0 O: I- A, \3 F3 W' m( ^/ p
: Q7 h: I% G+ m$ N; D
我覺得百度先收錄事原創~~~~~

評分

參與人數 1 +3 收起 理由
luguo + 3 谢谢回答

查看全部評分

回復

使用道具 舉報

發表於 2010-2-10 15:10:01 | 顯示全部樓層
那新站還是挺吃虧的
回復

使用道具 舉報

發表於 2010-2-10 16:44:43 | 顯示全部樓層
好像先比對,去除那些垃圾廣告站,然後再看日期先後

評分

參與人數 1 +3 收起 理由
luguo + 3 Anyway, thanks

查看全部評分

回復

使用道具 舉報

發表於 2010-4-2 21:44:49 | 顯示全部樓層
我認為搜索不能判斷出文章是誰原創的,統一文章即使是你原創,但權重高的網站轉載了,他也排在你前面。

評分

參與人數 1 +3 收起 理由
luguo + 3

查看全部評分

回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

4um點基跨境網編創業社區

GMT+8, 2024-10-30 23:18

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表