日韩高清在线免费不卡性生活毛片,亚洲av综合第一页,亚洲美女被操,一级无遮挡理论片

綠色資源網(wǎng):您身邊最放心的安全下載站! 最新軟件|熱門排行|軟件分類|軟件專題|廠商大全

綠色資源網(wǎng)

技術(shù)教程
您的位置:首頁服務(wù)器類Web服務(wù)器 → 如何在IIS里設(shè)置并查詢搜索引擎蜘蛛

如何在IIS里設(shè)置并查詢搜索引擎蜘蛛

我要評(píng)論 2009/04/13 00:01:17 來源:綠色資源網(wǎng) 編輯:華子 [ ] 評(píng)論:0 點(diǎn)擊:812次

  昨天發(fā)生了一件很郁悶的事情。downcc一個(gè)網(wǎng)站的快照停止在9號(hào)了,去服務(wù)器上查看該網(wǎng)站日志記錄!竟然沒發(fā)現(xiàn)蜘蛛記錄,以為網(wǎng)站要掛了!仔細(xì)一看,原來IIS該站點(diǎn)日志屬性中沒設(shè)置記錄爬蟲這些!百度下竟然在網(wǎng)上沒有這方面的文章,為了讓以后更多的兄弟不浪費(fèi)寶貴的時(shí)間,木木就把這個(gè)全套設(shè)置全部寫出來。

  一、IIS中網(wǎng)站的日志的設(shè)置。

  打開IIS。選擇所要設(shè)置的網(wǎng)站屬性。彈出如下窗口:

  “啟用日志記錄”,勾選,選擇“W3C擴(kuò)展日志文件格式”。

  再次點(diǎn)擊這里的“屬性”按鈕,常規(guī)選項(xiàng)里面,選擇新日志計(jì)劃為“每天”,當(dāng)然也可以選擇其他,選擇好保存日志文件的目錄。

  按照一般情況,設(shè)置到這里就可以記錄日志了,但是有些主機(jī)無論如何都找不到搜索引擎爬蟲的痕跡,類似于Baiduspider+怎么都看不到。這個(gè)時(shí)候我們就需要啟用剩下的三個(gè)選項(xiàng)了!

  選擇高級(jí)選項(xiàng)。勾選底下的用戶代理(cs(User-Agent))等下面三個(gè)選項(xiàng),這樣我們就可以看到百度蜘蛛了!

  二、如何分析網(wǎng)站IIS日志中的蜘蛛

  首先來認(rèn)識(shí)下國內(nèi)主流搜索引擎的蜘蛛的名稱:

  1. Google爬蟲名稱

  1) Googlebot:從Google的網(wǎng)站索引和新聞索引中抓取網(wǎng)頁

  2) Googlebot-Mobile針對(duì)Google的移動(dòng)索引抓取網(wǎng)頁

  3) Googlebot-Image:針對(duì)Google的圖片索引抓取網(wǎng)頁

  4) Mediapartners-Google:抓取網(wǎng)頁確定 AdSense 的內(nèi)容。只有在你的網(wǎng)站上展示 AdSense 廣告的情況下,Google才會(huì)使用此漫游器來抓取您的網(wǎng)站。

  5) Adsbot-Google:抓取網(wǎng)頁來衡量 AdWords 目標(biāo)網(wǎng)頁的質(zhì)量。只有在你使用 Google AdWords 為你的網(wǎng)站做廣告的情況下,Google才會(huì)使用此漫游器。

  2. 百度(Baidu)爬蟲名稱:Baiduspider

  3. 雅虎(Yahoo)爬蟲名稱:Yahoo Slurp

  4. 有道(Yodao)蜘蛛名稱:YodaoBot

  5. 搜狗(sogou)蜘蛛名稱:sogou spider

  因?yàn)樵蹅儑鴥?nèi)比較關(guān)注百度所以我們來分下百度的蜘蛛,從剛剛記錄的日志搜索“Baiduspider+“選取一段

  00:00:06 GET /Class/Class.asp ID=38 61.135.168.142 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 214

  上面這個(gè)日志說明是在0點(diǎn)的時(shí)候 訪問了 Class/Class.asp ID=38頁面。蜘蛛IP地址為61.135.168.142。其中的200 表示搜索引擎蜘蛛爬行后返回HTTP的狀態(tài)代碼,代表成功爬行并抓取。

  下面列出常見數(shù)字代碼:

  2xx 成功

  200 正常;請(qǐng)求已完成。

  201 正常;緊接 POST 命令。

  202 正常;已接受用于處理,但處理尚未完成。

  203 正常;部分信息 — 返回的信息只是一部分。

  204 正常;無響應(yīng) — 已接收請(qǐng)求,但不存在要回送的信息。

  3xx 重定向

  301 已移動(dòng) — 請(qǐng)求的數(shù)據(jù)具有新的位置且更改是永久的。

  302 已找到 — 請(qǐng)求的數(shù)據(jù)臨時(shí)具有不同 URI。

  303 請(qǐng)參閱其它 — 可在另一 URI 下找到對(duì)請(qǐng)求的響應(yīng),且應(yīng)使用 GET 方法檢索此響應(yīng)。

  304 未修改 — 未按預(yù)期修改文檔。

  305 使用代理 — 必須通過位置字段中提供的代理來訪問請(qǐng)求的資源。

  306 未使用 — 不再使用;保留此代碼以便將來使用。

  4xx 客戶機(jī)中出現(xiàn)的錯(cuò)誤

  400 錯(cuò)誤請(qǐng)求 — 請(qǐng)求中有語法問題,或不能滿足請(qǐng)求。

  401 未授權(quán) — 未授權(quán)客戶機(jī)訪問數(shù)據(jù)。

  402 需要付款 — 表示計(jì)費(fèi)系統(tǒng)已有效。

  403 禁止 — 即使有授權(quán)也不需要訪問。

  404 找不到 — 服務(wù)器找不到給定的資源;文檔不存在。

  407 代理認(rèn)證請(qǐng)求 — 客戶機(jī)首先必須使用代理認(rèn)證自身。

  410 請(qǐng)求的網(wǎng)頁不存在(永久);

  415 介質(zhì)類型不受支持 — 服務(wù)器拒絕服務(wù)請(qǐng)求,因?yàn)椴恢С终?qǐng)求實(shí)體的格式。

  5xx 服務(wù)器中出現(xiàn)的錯(cuò)誤

  500 內(nèi)部錯(cuò)誤 — 因?yàn)橐馔馇闆r,服務(wù)器不能完成請(qǐng)求。

  501 未執(zhí)行 — 服務(wù)器不支持請(qǐng)求的工具。

  502 錯(cuò)誤網(wǎng)關(guān) — 服務(wù)器接收到來自上游服務(wù)器的無效響應(yīng)。

  503 無法獲得服務(wù) — 由于臨時(shí)過載或維護(hù),服務(wù)器無法處理請(qǐng)求。

  了解蜘蛛的爬行痕跡,有助于我們分析自己的網(wǎng)站。木木才疏學(xué)淺,就簡單的總結(jié)下!

關(guān)鍵詞:IIS,搜索引擎

閱讀本文后您有什么感想? 已有 人給出評(píng)價(jià)!

  • 1 歡迎喜歡
  • 1 白癡
  • 1 拜托
  • 1 哇
  • 1 加油
  • 1 鄙視