您现在的位置是:芭奇站群管理系统 > 优化技巧 > -> 网站iis日志的设置与搜索引擎爬虫痕迹的分析

网站iis日志的设置与搜索引擎爬虫痕迹的分析

时间:2010-05-16 15:29

  虽然做网站建设和seo优化有段时间了,但对于iis日志的分析一直不曾研究,今天看到一篇关于iis日志和搜索引擎爬虫痕迹的文章,特地收藏,与大家共享。

  这次由于建设一个新网站的原因,重新上服务器开通了iis日志,居然还遇见了一点小问题。搜索了很多技术文章才最终搞定。我想,应该还有很多初学者,甚至是seo入门的朋友,对iis日志都还不够熟悉吧?因此今天我便从iis日志的设置到如何对爬虫进行分析做一个简要的讲解,权当作是初级的seo培训。

  一、iis日志的设置。

  第一个步骤:打开iis服务器。选择所要设置的网站属性。弹出如下窗口:

  选择“启用日志记录”,勾选,选择“w3c扩展日志文件格式”。

  第二步骤:再次点击这里的“属性”按钮,常规选项里面,选择新日志计划为“每天”,当然也可以选择其他,选择好保存日志文件的目录。

  很多seo设置到这里,点击确定之后,发现iis日志已经开始记录,但是无论如何都找不到搜索引擎爬虫的痕迹,类似于baiduspider+怎么都看不到,其实,我们还应该做第三个辅助步骤,因为默认的iis日志是不开启这个功能的。

  第三个步骤:选择高级选项。勾选底下的用户代理(cs(user-agent))等选项,我一般都将最下面的三个选项勾选起来。这样,你才可以看到百度等爬虫的名称。

  第四个步骤:如果你全部按照上面设置之后,发现你的iis日志还没开始记录,也就是本次困扰了我非常久的问题,那么最重要的一步就是检查相关的设置是否都完整。有的朋友说iis日志不记录是因为系统服务windowstime没启动,或者系统的权限不正确等,比如没让iis日志保存的那个文件夹有和iis一样的权限之类,其实没有这么复杂,把下图的“记录访问”选项勾选即可。这样你的iis日志就开始正常记录了。

  二、如何分析网站iis日志中的搜索引擎爬虫轨迹

  首先,加入你要搜索百度的爬虫,那么就直接在保存记录的文本文档上搜索“baiduspider”,我们节选以下一行来做详细的分析:

  2009-04-0716:00:09w3svc471124.173.129.217get/info/71620_827.html-80-203.208.60.138mozilla/5.0+(compatible;+googlebot/2.1;++abcdgoogle.com/bot.html)2000022228

  这段iis日志代码表示:在2009-04-0716:00:09这个时间,百度搜索引擎的蜘蛛(ip地址为203.208.60.138,后面的abcdgoogle.com/bot.html是关于googlebot+的相关问题)访问了服务器ip为124.173.129.217的网站abcdvegoo.net,并且抓取了页面/info/71620_827.html,该日志记录保存在w3svc471文件夹。

  其中,两个地方值得说明:

  一是代码中abcdgoogle.com/bot.html后面的200表示搜索引擎蜘蛛爬行后返回http的状态代码,代表成功爬行并抓取。

  各个数字代码的具体意思参见如下:

  2xx成功

  200正常;请求已完成。

  201正常;紧接post命令。

  202正常;已接受用于处理,但处理尚未完成。

  203正常;部分信息—返回的信息只是一部分。

  204正常;无响应—已接收请求,但不存在要回送的信息。

  3xx重定向

  301已移动—请求的数据具有新的位置且更改是永久的。

  302已找到—请求的数据临时具有不同uri。

  303请参阅其它—可在另一uri下找到对请求的响应,且应使用get方法检索此响应。

  304未修改—未按预期修改文档。

  305使用代理—必须通过位置字段中提供的代理来访问请求的资源。

  306未使用—不再使用;保留此代码以便将来使用。

  4xx客户机中出现的错误

  400错误请求—请求中有语法问题,或不能满足请求。

  401未授权—未授权客户机访问数据。

  402需要付款—表示计费系统已有效。

  403禁止—即使有授权也不需要访问。

  404找不到—服务器找不到给定的资源;文档不存在。

  407代理认证请求—客户机首先必须使用代理认证自身。

  410请求的网页不存在(永久);

  415介质类型不受支持—服务器拒绝服务请求,因为不支持请求实体的格式。

  5xx服务器中出现的错误

  500内部错误—因为意外情况,服务器不能完成请求。

  501未执行—服务器不支持请求的工具。

  502错误网关—服务器接收到来自上游服务器的无效响应。

  503无法获得服务—由于临时过载或维护,服务器无法处理请求。

  二是各大搜索引擎爬虫(蜘蛛)的名称整理如下,大家可以对号入座:

  1.google爬虫名称

  1)googlebot:从google的网站索引和新闻索引中抓取网页

  2)googlebot-mobile针对google的移动索引抓取网页

  3)googlebot-image:针对google的图片索引抓取网页

  4)mediapartners-google:抓取网页确定adsense的内容。只有在你的网站上展示adsense广告的情况下,google才会使用此漫游器来抓取您的网站。

  5)adsbot-google:抓取网页来衡量adwords目标网页的质量。只有在你使用googleadwords为你的网站做广告的情况下,google才会使用此漫游器。

  2.百度(baidu)爬虫名称:baiduspider

  3.雅虎(yahoo)爬虫名称:yahooslurp

  4.有道(yodao)蜘蛛名称:yodaobot

  5.搜狗(sogou)蜘蛛名称:sogouspider

  6.msn的蜘蛛名称:msnbot

  其他的搜索引擎我们使用得很少,就不需要理会了:)。