首先,我們應(yīng)該知道什么情況會產(chǎn)生重復(fù)內(nèi)容?
1、 重復(fù)更新內(nèi)容:這是網(wǎng)站編輯在上傳文章的過程中多次上傳同一篇文章所致,歸根到底是沒有寫重復(fù)標題驗證功能。
2、網(wǎng)站內(nèi)容多為采集,這種網(wǎng)站內(nèi)容重復(fù)會被當做采集站直接被百度處理掉,百度新的綠蘿算法就是專門打擊采集站點的。
3、列表翻頁和內(nèi)容分頁:列表翻頁和內(nèi)容分頁標題相同,也會被判定為相同內(nèi)容。
4、 多處調(diào)用同一篇內(nèi)容:動態(tài)地址偽靜態(tài)會產(chǎn)生兩個不同URL但內(nèi)容相同的情況,同一級欄目互相調(diào)用文章也會產(chǎn)生這樣的情況。
5、網(wǎng)站的固定版塊出現(xiàn)次數(shù)太多,很多網(wǎng)站的右側(cè)總是固定放一些版塊或欄目,這些欄目的內(nèi)容從來不進行更新,或者各個頁面的右側(cè)都是前篇一律的內(nèi)容,就會造成頁面重復(fù)度高。
6、未設(shè)置404錯誤頁面,當我們刪除某一個頁面的時候,一定要用404狀態(tài)碼給予用戶和蜘蛛一定的提示,如果代碼設(shè)置錯誤,那么刪除的頁面在蜘蛛那里是假想存在的,由此一來就會多次收錄。
7、生成的RSS訂閱。關(guān)于RSS訂閱大家都很熟悉,對于一些大型新聞網(wǎng)站或是個人博客之類的網(wǎng)站都會利用RSS訂閱來生成個人站點的內(nèi)容,然而這些個人站點的內(nèi)容必然會被他人轉(zhuǎn)載,這就會造成原始源信息和其他網(wǎng)站內(nèi)容造成重合,蜘蛛重復(fù)收錄也就成了可能。
其次,知道了網(wǎng)站重復(fù)內(nèi)容的產(chǎn)生,那么我們應(yīng)該如何正確處理重復(fù)內(nèi)容呢?
1、減少采集內(nèi)容的頻率,增加原創(chuàng)內(nèi)容。
這點很容易理解,世上沒有不勞而獲的東西,如果網(wǎng)站的發(fā)展要依靠采集的話,那么這個網(wǎng)站也就沒有了繼續(xù)生存下去的希望。對于網(wǎng)站內(nèi)容多為采集或簡單偽原創(chuàng)的網(wǎng)站,建議增加原創(chuàng)文章的內(nèi)容,寧可百度收錄少一些,也不要讓百度把之前收錄的文章吐出來。
2、網(wǎng)站固定欄目內(nèi)容隨機展示
可以根據(jù)正文的關(guān)鍵詞,隨機調(diào)用右側(cè)欄目的文章內(nèi)容,讓每一個頁面都有不一樣的內(nèi)容,避免大量頁面相似度高的情況出現(xiàn)。
3、減少無效或是重復(fù)的URL。
在我們從網(wǎng)站開始的建設(shè)過程當中就盡可能的使URL統(tǒng)一,切勿使用動態(tài)頁面進行連接,因為就蜘蛛的角度想問題,它是不喜歡動態(tài)頁面的。
4、頁面設(shè)置獨立的Meta標簽
關(guān)鍵詞、標簽、描述,每一個頁面都需要不同,可以采用手動修改,或者根據(jù)一定的規(guī)則設(shè)置。
5、減少無效內(nèi)容之間的鏈接。
很多時候我們會對之前的網(wǎng)站結(jié)構(gòu)或是內(nèi)容頁進行修改,無形中就會遺留下一部分被刪除的內(nèi)容,對于這些東西大家要及時的清理,利用管理員工具去掉這些無效的鏈接,以免蜘蛛重復(fù)抓取,從而形成類似于狀態(tài)碼200的情況。
6、設(shè)置404頁面
告知用戶和搜索引擎某些頁面不存在了,防止搜索引擎收錄大量死鏈。