如何在IIS里設置并查詢搜索引擎蜘蛛

我要評論 2009/04/13 00:01:17 來源：綠色資源網編輯：華子 [大中小] 評論:0 點擊:812次

　　昨天發(fā)生了一件很郁悶的事情。downcc一個網站的快照停止在9號了，去服務器上查看該網站日志記錄!竟然沒發(fā)現蜘蛛記錄，以為網站要掛了!仔細一看，原來IIS該站點日志屬性中沒設置記錄爬蟲這些!百度下竟然在網上沒有這方面的文章，為了讓以后更多的兄弟不浪費寶貴的時間，木木就把這個全套設置全部寫出來。

　　一、IIS中網站的日志的設置。

　　打開IIS。選擇所要設置的網站屬性。彈出如下窗口：

　　“啟用日志記錄”，勾選，選擇“W3C擴展日志文件格式”。

　　再次點擊這里的“屬性”按鈕，常規(guī)選項里面，選擇新日志計劃為“每天”，當然也可以選擇其他，選擇好保存日志文件的目錄。

　　按照一般情況，設置到這里就可以記錄日志了，但是有些主機無論如何都找不到搜索引擎爬蟲的痕跡，類似于Baiduspider+怎么都看不到。這個時候我們就需要啟用剩下的三個選項了!

　　選擇高級選項。勾選底下的用戶代理(cs(User-Agent))等下面三個選項，這樣我們就可以看到百度蜘蛛了!

　　二、如何分析網站IIS日志中的蜘蛛

　　首先來認識下國內主流搜索引擎的蜘蛛的名稱：

　　1. Google爬蟲名稱

　　1) Googlebot：從Google的網站索引和新聞索引中抓取網頁

　　2) Googlebot-Mobile針對Google的移動索引抓取網頁

　　3) Googlebot-Image：針對Google的圖片索引抓取網頁

　　4) Mediapartners-Google：抓取網頁確定 AdSense 的內容。只有在你的網站上展示 AdSense 廣告的情況下，Google才會使用此漫游器來抓取您的網站。

　　5) Adsbot-Google：抓取網頁來衡量 AdWords 目標網頁的質量。只有在你使用 Google AdWords 為你的網站做廣告的情況下，Google才會使用此漫游器。

　　2. 百度(Baidu)爬蟲名稱：Baiduspider

　　3. 雅虎(Yahoo)爬蟲名稱：Yahoo Slurp

　　4. 有道(Yodao)蜘蛛名稱：YodaoBot

　　5. 搜狗(sogou)蜘蛛名稱：sogou spider

　　因為咱們國內比較關注百度所以我們來分下百度的蜘蛛，從剛剛記錄的日志搜索“Baiduspider+“選取一段

　　00:00:06 GET /Class/Class.asp ID=38 61.135.168.142 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 214

　　上面這個日志說明是在0點的時候訪問了 Class/Class.asp ID=38頁面。蜘蛛IP地址為61.135.168.142。其中的200 表示搜索引擎蜘蛛爬行后返回HTTP的狀態(tài)代碼，代表成功爬行并抓取。

　　下面列出常見數字代碼：

　　2xx 成功

　　200 正常;請求已完成。

　　201 正常;緊接 POST 命令。

　　202 正常;已接受用于處理，但處理尚未完成。

　　203 正常;部分信息 — 返回的信息只是一部分。

　　204 正常;無響應 — 已接收請求，但不存在要回送的信息。

　　3xx 重定向

　　301 已移動 — 請求的數據具有新的位置且更改是永久的。

　　302 已找到 — 請求的數據臨時具有不同 URI。

　　303 請參閱其它 — 可在另一 URI 下找到對請求的響應，且應使用 GET 方法檢索此響應。

　　304 未修改 — 未按預期修改文檔。

　　305 使用代理 — 必須通過位置字段中提供的代理來訪問請求的資源。

　　306 未使用 — 不再使用;保留此代碼以便將來使用。

　　4xx 客戶機中出現的錯誤

　　400 錯誤請求 — 請求中有語法問題，或不能滿足請求。

　　401 未授權 — 未授權客戶機訪問數據。

　　402 需要付款 — 表示計費系統(tǒng)已有效。

　　403 禁止 — 即使有授權也不需要訪問。

　　404 找不到 — 服務器找不到給定的資源;文檔不存在。

　　407 代理認證請求 — 客戶機首先必須使用代理認證自身。

　　410 請求的網頁不存在(永久);

　　415 介質類型不受支持 — 服務器拒絕服務請求，因為不支持請求實體的格式。

　　5xx 服務器中出現的錯誤

　　500 內部錯誤 — 因為意外情況，服務器不能完成請求。

　　501 未執(zhí)行 — 服務器不支持請求的工具。

　　502 錯誤網關 — 服務器接收到來自上游服務器的無效響應。

　　503 無法獲得服務 — 由于臨時過載或維護，服務器無法處理請求。

　　了解蜘蛛的爬行痕跡，有助于我們分析自己的網站。木木才疏學淺，就簡單的總結下!

關鍵詞：IIS,搜索引擎

日韩高清在线免费不卡性生活毛片,亚洲av综合第一页,亚洲美女被操,一级无遮挡理论片

如何在IIS里設置并查詢搜索引擎蜘蛛

閱讀本文后您有什么感想? 已有 0 人給出評價!

閱讀本文后您有什么感想? 已有 0 人給出評價!

熱門評論

最新評論

發(fā)表評論 查看所有評論(0)

發(fā)表評論查看所有評論(0)