站長在進行網站建設的時候,有時候會遇到一個問題,那就是網頁相似度的問題。什麼是網頁相似度呢?所謂網頁相似度,簡單的說就是兩個網頁的相似程度。這兩個網頁可以是同一個網站上的網頁,也可以不是同一個網站上的網頁,也既是其他網站上的網頁。搜索引擎在收錄網頁的時候,通常會對兩個網頁進行比較,看看兩個網頁是否相似。
所謂相似,就是說兩個網頁在頁面內容的大部分都是相同的,這時候就可以認為兩個網頁是相似的。搜索引擎在比較兩個網頁的時候,是採用一定的演算法來進行比較,搜索引擎通常會採用兩種方法來進行比較:一種是根據網頁摘要來比較,如果多個網頁摘要的 md5 值一樣,證明這些網頁具有很高的相似度。另一種是根據網頁出現的關鍵字,按照詞頻排序,可以取N個詞頻高的,如果其 md5 值一樣,則可以認為這些網頁有很高的相似度。穀歌搜索引擎給網頁相似度設定的比例是60%,也就是說如果兩個網頁的相似度超過60%,那麼被比較的網頁不再被收錄,如果相似度接近60%,那麼被比較的網頁可能也會被收錄,但是搜索引擎給予的權重則比較低。這就是搜索引擎對待網頁相似度的態度。由此可見,網頁相似度對我們的網站的影響主要在於被比較的網頁是否能夠被收錄,對其他方面則基本沒什麼影響。
造成網頁相似度問題產生的原因主要有兩點:
①在同一個網站內部,拿舊的網頁複製做新的網頁,造成網頁裏面的標題、關鍵字、描述資訊、內容等改動的比較少,結果被搜索引擎判定為相似度高。
②在不同網站之間,將原來已經被收錄的網頁的內容拿來,並進行稍微改動或者偽原創,結果造成裏面的內容改動較少,或者僅僅進行段落調整,裏面的內容沒怎麼變動,這與照抄差不多,被搜索引擎判定為相似度高。搜索引擎在判斷網頁的相似度的時候,是挺智能的,並不是我們想像的簡單的從頭到尾進行比較一下,而是進行智能的分析和比較,我們對此不要抱著僥倖心理,以為把別人網頁的內容照抄過來,簡單的修改了一下就可以蒙混過關。
有了問題,我們就需要進行改正,下次避免再犯同樣的錯誤。對於網頁相似度的問題,我們知道了造成的原因,就可以對症下藥。解決網頁相似度的最有效的方法是對你的網頁做到真正的原創,如果你的網頁內容是原創出來的,只要內容品質高,就肯定不會因為網頁相似度的問題而不收錄,一般的都能被收錄的。
如果作為站長的你沒有過多的時間去寫原創文章,或者限於水準問題寫不出來高質量的原創文章,那麼你也可以進行偽原創,但是我們建議你為了避免纏身該網頁相似度問題,你需要對原來的文章進行大幅度的修改,修改的幅度起碼也要在50%以上,這樣才可能被搜索引擎收錄。另外我們建議各位站長,在做網頁的時候,為了節省時間,如果需要複製原來的網頁,那麼我們也建議您對網頁標題、關鍵字、描述資訊以及內容也同樣進行大幅度的修改,否則你的網頁很難被收錄的。
在修改的時候可以用一些不同的代碼替換掉原來的代碼,比如使用iFrame框架取代以前的部分內容等等。筆者從事網站建設領域做了很長時間了,遇見到的因為網頁相似度問題不被收錄的情況不在少數,在穀歌站長管理平臺上也有個html文檔工具,如果兩個網頁的標題和描述資訊差不多,站長工具會提示你哪兩個網頁的相似度高了,這時候我們就可以對之進行修改。建議站長們多多進入搜索引擎的管理平臺裏,使用裏面提供的功能,有時候會對網站建設很有好處的。