怎樣的文章才能被谷歌定義為原創

顯示全部樓層 · 發表於 2013-4-17 22:09:56

1.用copyscape.com檢測文章相似度，一定要沒有搜索結果才算原創嗎？
2.找10篇網上的文章，每個文章抽出兩句話，組成一篇新的文章，又或者每20篇文章提取出一句，組成一篇，算原創嗎？
網上找的定義：
1.相似度

　　相似度是搜索引擎去重用的最多的算法，用的比較多的一種是TF/IDF算法，這個也是計算相關性的算法，TF-IDF的主要意思是說：如果某個詞或短語在一篇文章中出現的頻率高，並且在其他文章中很少出現，則認為此詞或者短語具有很好的類別區分能力，適合用來分類。

　　TF詞頻（Term Frequency）指的是某一個給定的詞語在該文件中出現的次數。

　　IDF反文檔頻率（Inverse Document Frequency）指的是：如果包含詞條的文檔越少，IDF越大，則說明詞條具有很好的類別區分能力。

　　當一篇文章根據TF/IDF進行計算後，形成了一個多維的向量，這個向量就是這篇文章的內容特徵向量，當兩篇文章的特徵向量趨於一致的時候，我們認為這兩篇文章的內容接近，如果一致則說明是重複的。

　　關於TF/IDF與向量算法的詳細請參看Google黑板報的數學之美12-餘弦定理與新聞分類

　　2.數據指紋

　　當搜索引擎通過相似度把文章收集起來後，要判別一下是否是重複文章，經常用的就是數據指紋，數據指紋有很多種算法，常見的比如講文章的標點符號提出，進行對比，你很難想像有兩篇不同的文章，標點符合是一致的。還有對向量進行對比，也就是TF詞頻（關鍵詞密度）等等來判斷。

　　這時候你可以想像出，現在很多偽原創工具，只是把關鍵詞進行了替換，你想關鍵詞替換後，標點符號指紋是不變的，甚至連TF詞頻都不變。還有對文章進行段落的重拍，這個的確是打亂了標點符號，但是向量和詞頻問題依然存在。那麼這樣的偽原創工具有沒有價值你就可想而知了。（可能對於百度還是有作用的）

　　3.代碼噪音

　　前面說的這些，都是基於一個條件的，就是搜索引擎要知道文章是什麼，因為每個網站的模板都不同，代碼也不同，各種信息混合在一起，如果能找到正文就是搜索引擎第一要處理的。

　　一般Google都會通過對代碼的佈局和噪音比例進行區分，哪些是導航，哪些是正文，並可以對一些典型的代碼進行忽略。那麼我們在做模板的時候，就要注意了。這裡有個糾結點，就是整頁面降噪，方便搜索引擎進行正文的確認，但是正文區要適當的加燥，增加搜索引擎識別重複性的難度。
4 Z9 Z, j3 g2 A' K ]! J) N) ^+ l0 B* ?( v

顯示全部樓層 · 發表於 2013-4-17 22:27:48

我的文章有一部分就是東拼西湊加輕微偽原創你抽出來的話能夠自圓其說，有相當的可讀性就應該沒問題

顯示全部樓層 · 發表於 2013-4-17 22:29:24

讀者感覺讀著有用，谷歌自然就也過了

顯示全部樓層 · 發表於 2013-4-17 23:06:14

我覺得你要先想著為用戶提供價值，只有用戶覺得有價值了。google才會認為你的有價值。

顯示全部樓層 · 發表於 2013-4-17 23:06:24

通過軟件自動拼湊文章，一般就會認為是原創

顯示全部樓層 · 發表於 2013-4-18 10:35:02

具體算法誰也不會知道
把能做的盡量做好，隨機組合加適度改寫和偽原創足夠了

顯示全部樓層 · 發表於 2013-4-18 10:39:04

應該是沒有任何規律的吧，軟件改寫的文章肯定有一定規律，自己寫的話，那就不是統一的模式了。

顯示全部樓層 · 發表於 2013-4-18 10:52:36

用軟件，然後再手工改改

顯示全部樓層 · 發表於 2013-4-18 14:04:20

一句話不同的說法就是原創了

顯示全部樓層 · 發表於 2013-4-18 19:08:20

樓主考慮太多了，按照你找的定義，那麼除了外包和自己寫，那麼可能都不行了。其實現在50%不重複，收錄的也挺好，基本上被google認定為原創。

		自動登錄	找回密碼
密碼			免费注册