查看日志是seoer日常工作中的重要一環(huán),有些站長顯然還沒習(xí)慣去分析繁瑣的日志,但無論如何,養(yǎng)成經(jīng)常查看日志的好習(xí)慣是必不可少的。在查看日志的時候,除了查看蜘蛛抓取次數(shù)、時間之外,還有一項(xiàng)很重要的內(nèi)容,就是狀態(tài)碼的查看。今天我們著重講述304和200狀態(tài)碼的應(yīng)用。
首先我們先來了解一下這兩種狀態(tài)碼分別意味著什么。當(dāng)搜索引擎蜘蛛程序?qū)W(wǎng)頁進(jìn)行抓取的時候,通常它首先需要對頁面進(jìn)行監(jiān)控和解析,監(jiān)控頁面是否發(fā)生了變化,也就是是否更新。那么蜘蛛是如何快速判斷頁面是否變化的呢?當(dāng)蜘蛛抓取監(jiān)控區(qū)域內(nèi)容的時候,它會與保存在搜索引擎服務(wù)期上最近一次抓取的內(nèi)容進(jìn)行比較,如果有差異就表明網(wǎng)頁發(fā)生了變化,就會進(jìn)行解析。
一般而言,同一個網(wǎng)站相對比較穩(wěn)定的模板,監(jiān)控區(qū)域也是固定的,比如內(nèi)容區(qū)域和列表區(qū)域。當(dāng)蜘蛛發(fā)現(xiàn)頁面沒有變化時,通常會返回304狀態(tài)碼,如果發(fā)現(xiàn)有變化,則返回200狀態(tài)碼。了解了這一點(diǎn)之后,我們就很容易在日志里發(fā)現(xiàn)蜘蛛認(rèn)為我們的哪些頁面發(fā)生了變化。通過對比分析,這些頁面是否是新頁面,變更的部位,我們可以大致明白如何讓蜘蛛返回更多的200狀態(tài)碼,這意味著我們的網(wǎng)站首頁能夠獲取最新的網(wǎng)頁快照。
1、如何讓首頁保持更新
之前有看到牛人采用程序,使首頁每次刷新都會出現(xiàn)新的內(nèi)容,這一招非常迎合蜘蛛的口味,蜘蛛每次來的時候發(fā)現(xiàn)頁面都是新的,于是不停不停的抓取,快照想不新都難。不過一般來說,大多數(shù)網(wǎng)站顯然做不到這一點(diǎn)。有些網(wǎng)站首頁采用調(diào)用論壇或者博客的形式,來不斷使首頁保持最新。但不幸的是,由于一些人不是很了解這么做的目的,采用了JS或者iframe調(diào)用的形式,這么做的結(jié)果,不僅無法使蜘蛛認(rèn)為你的網(wǎng)頁發(fā)生更新,而且JS和iframe調(diào)用的內(nèi)容也非常不利于抓取;旧显谧鰺o用功。請記住,無論你使用什么程序,一定要確保瀏覽器執(zhí)行的時候是具體的內(nèi)容和鏈接。
明白了監(jiān)控區(qū)域這個概念之后,我們可以想象:在首頁上如果有很多欄目列表,那么倘若我們長時間只更新一個欄目,這樣做的結(jié)果會讓蜘蛛認(rèn)為其他列表部分是不會變化的,也就是非監(jiān)控區(qū)域。這樣某天當(dāng)你不更新這個欄目,而更新其他欄目時,就可能出現(xiàn)滯后的情況,以至于蜘蛛短期內(nèi)并不認(rèn)為你的網(wǎng)頁發(fā)生變化,直到完整的核對之后。這樣就可能造成快照停滯的情況。請仔細(xì)理解這段話。
基于這一點(diǎn),我們在更新內(nèi)容的時候,盡可能保持整個網(wǎng)頁各個區(qū)域都在均衡的變化,也就是在首頁上出現(xiàn)的每個欄目都適當(dāng)?shù)母聝?nèi)容,這樣的好處是只要有一點(diǎn)點(diǎn)更新,蜘蛛都能及時發(fā)現(xiàn),也就是說,我們要讓網(wǎng)頁上盡可能多的區(qū)域都成為蜘蛛的監(jiān)控區(qū)域。那么只要我們網(wǎng)頁有一點(diǎn)點(diǎn)的變化,都會讓蜘蛛最快的時間內(nèi)發(fā)現(xiàn)并進(jìn)行更新。這樣一般能解決快照最新的問題。
2、欄目列表頁
事實(shí)上欄目列表頁的快照較慢,讓很多人無奈。倘若欄目列表頁僅僅是列表在逐漸的刷新,的確很難讓快照及時。針對它的思路是,盡可能擴(kuò)充區(qū)域,除了正常的內(nèi)容列表之外,右邊放置大量的最新內(nèi)容列表、熱門點(diǎn)擊列表、隨機(jī)內(nèi)容列表等等,有人認(rèn)為這些板塊一方面是為了盡可能讓瀏覽者點(diǎn)擊內(nèi)容,從而有利于用戶體驗(yàn),同時有利于增加內(nèi)鏈。事實(shí)上不僅僅如此,它還有利于擴(kuò)充蜘蛛的監(jiān)控區(qū)域,最大化保持頁面的更新,讓蜘蛛返回更多的200狀態(tài)碼。
3.內(nèi)容頁
內(nèi)容頁相對來說,監(jiān)控區(qū)域更加穩(wěn)定,就是內(nèi)容展示部分;旧细碌膬(nèi)容一下子就可以監(jiān)控出來。所以網(wǎng)站里內(nèi)容頁是最容易判斷是否更新的,而且有的頁面是新頁面,蜘蛛在索引庫中完全沒有記錄,這樣的頁面幾乎無須判斷都可以判定為新頁面,會返回200狀態(tài)碼。
了解了這些之后,你可以測試一下自己的網(wǎng)站監(jiān)控區(qū)域在哪里。比如以網(wǎng)站首頁作為實(shí)驗(yàn)對象,一點(diǎn)一點(diǎn)的改動,每個區(qū)域逐個更新,更新一塊之后,暫停,等待蜘蛛來訪,然后查看日志的狀態(tài)碼。這樣最終你可以發(fā)現(xiàn)自己網(wǎng)站的哪些部分是蜘蛛的監(jiān)控區(qū)域,從而更加有針對性的進(jìn)行內(nèi)容更新。事實(shí)上日志里還有更多的內(nèi)容可以研究,以后我們將逐個講解。關(guān)于304和200狀態(tài)碼的應(yīng)用暫時就講到這里,希望大家的日志里充滿了200。
上一條:
愛康團(tuán)獲第一筆風(fēng)險(xiǎn)投資 金額達(dá)200萬美元下一條:
網(wǎng)絡(luò)大對罵事件 從騰訊360大戰(zhàn)看網(wǎng)絡(luò)營銷推廣網(wǎng)站制作