1、記錄搜索引擎蜘蛛的不重復(fù)抓取量
上一步我們把蜘蛛的抓取量數(shù)據(jù)給分析出來(lái)了,然后我們要進(jìn)行去重,也就是搜索引擎的唯一不重復(fù)抓取量,其實(shí)對(duì)于收錄來(lái)說(shuō),許多頁(yè)面只要抓取一次就可以了,可是在實(shí)際操作的過(guò)程當(dāng)中,許多頁(yè)面都是被重復(fù)抓取的,谷歌的技術(shù)比較先進(jìn)一些,重復(fù)抓取率也許會(huì)低一些,可是百度等搜索引擎,重復(fù)抓取率卻非常高,你通過(guò)日志分析就可以看出來(lái)了,一天如果抓取量上百萬(wàn),可能好幾萬(wàn)次都是抓取首頁(yè)的,所以許多數(shù)據(jù)你一定要去分析的,當(dāng)你分析了后,你才會(huì)知道問(wèn)題的嚴(yán)重性。
2、每個(gè)目錄、每個(gè)搜索引擎的抓取量
上邊兩步把總體抓取量、不重復(fù)抓取量記錄下來(lái)了,然后我們要分析出每個(gè)搜索引擎對(duì)每一個(gè)目錄的抓取情況是怎么樣的,這樣利于進(jìn)行分塊優(yōu)化,例如當(dāng)你網(wǎng)站流量上升時(shí),你可以知道是哪個(gè)目錄的流量上升了,然后再往下推,看看是哪個(gè)目錄的抓取量上升了,哪個(gè)目錄的抓取量下降了,為什么下降,都可以進(jìn)行分析的,然后在網(wǎng)站中進(jìn)行適當(dāng)?shù)逆溄咏Y(jié)構(gòu)調(diào)整,例如使用nofollow標(biāo)簽等。
3、每個(gè)搜索引擎的總體抓取量(以及趨勢(shì))
在日志文件中,明確的記錄了每個(gè)搜索引擎的抓取量,例如百度、谷歌、搜狗等搜索引擎的抓取記錄,我們都可以進(jìn)行記錄,使用DOS命令或者Linux命令都可以去實(shí)現(xiàn)的,搜索引擎的收錄是由抓取量以及文章質(zhì)量來(lái)決定的,當(dāng)文章質(zhì)量不變的情況下,蜘蛛抓取量越大,那么收錄的就會(huì)越多,我們?cè)谶M(jìn)行日志分析 時(shí)候,一定要清楚的知道蜘蛛每天的抓取量到底是一個(gè)什么情況,而且每天都要記錄,也許絕對(duì)值說(shuō)明不了什么,我們可以去看它的趨勢(shì),當(dāng)某一天抓取量的趨勢(shì)在下降時(shí),我們就要去找原因了。
4、統(tǒng)計(jì)搜索引擎蜘蛛來(lái)的次數(shù)、來(lái)的時(shí)間
我們可以使用一些日志分析工具,設(shè)定一個(gè)標(biāo)準(zhǔn),例如光年日志分析工具,可以統(tǒng)計(jì)出每個(gè)搜索引擎蜘蛛每天來(lái)的次數(shù),一天一共在我們網(wǎng)站停留了多久,有沒(méi)有IP蜘蛛一天24小時(shí)都在我們網(wǎng)站不停的抓取,這樣的蜘蛛越多越好,往往是你網(wǎng)站權(quán)重提升的表現(xiàn)。這樣的數(shù)據(jù)可以每天都記錄下來(lái),在一定的時(shí)間段內(nèi),進(jìn)行對(duì)比分析,看看停留的時(shí)間是不是增加了,來(lái)的次數(shù)是不是增多了,這樣可以判斷出網(wǎng)站權(quán)重是上升還是下降。
5、統(tǒng)計(jì)搜索引擎抓取的狀態(tài)碼
當(dāng)搜索引擎抓取了你的頁(yè)面后,不但抓取了你的內(nèi)容,而且還會(huì)有一個(gè)抓取返回碼的,這些返回碼我們要記錄下來(lái),特別是一些類似301、404、500等這些狀態(tài)碼,我們從這些狀態(tài)碼中我們找出網(wǎng)站的一些潛在的問(wèn)題,例如為什么會(huì)出現(xiàn)很多404頁(yè)面,是程序原因,還是搜索引擎在抓取外鏈的時(shí)候提取錯(cuò)誤,其實(shí)我們可以在谷歌管理員工具中看到這些數(shù)據(jù)的,里邊還會(huì)提示你的錯(cuò)誤的404頁(yè)面出現(xiàn)在哪里,對(duì)于一些301狀態(tài)碼我們也要注意了,看下這些301是不是按照我們所希望的那樣跳轉(zhuǎn)的,網(wǎng)站中要盡量的少用跳轉(zhuǎn),頁(yè)面在跳轉(zhuǎn)的時(shí)候,往往會(huì)延長(zhǎng)頁(yè)面的加載時(shí)間,最常見(jiàn)的301可能就是網(wǎng)頁(yè)URL不帶"/"的跳轉(zhuǎn)到帶“/”的情況了,我們?cè)诰W(wǎng)站中,要盡量的避免出現(xiàn)這樣的情況。