关键词快排系统
当前位置 : 首页 > 蜘蛛技巧

带你认清“百度蜘蛛”到底是什么鬼?

Baiduspider汉译为:百度蜘蛛,就是那个在SEO业传得神乎奇呼的傻蛋蜘蛛!百度蜘蛛是百度搜索引擎的一个自动程序,它的作用是有事没事访问互联网上的网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站上的网页。


  Baiduspider的user-agent是什么?这句话直译的意思就是:百度蜘蛛的用户代理是什么?我们都知道,可能你不知道,但是现在说了你就知道了;对吧?难道你还不明白我要说什么吗?我要说的是:百度各个产品使用的user-agent是不同的,也就是说,不同的产品它委派了不同类型的蜘蛛!

  网页以及其他搜索

  无线搜索——Baiduspider(百度蜘蛛)

  图片搜索——Baiduspider-image(百度蜘蛛-图片)

  视频搜索——Baiduspider-video(百度蜘蛛-视频)

  新闻搜索——Baiduspider-news(百度蜘蛛-新闻)

  百度搜藏——Baiduspider-favo(百度蜘蛛-搜藏)

  百度联盟——Baiduspider-cpro(百度蜘蛛-主题推广)

  商务搜索——Baiduspider-ads(百度蜘蛛-广告)

  百度蜘蛛对一个网站服务器造成的访问压力如何?

  为了达到对目标资源较好的检索效果,百度蜘蛛需要对网站保持一定量的抓取。百度蜘蛛一般不会给网站带来不合理的负担,它会根据服务器承受能力,网站质量,网站更新等综合因素来进行调整。如果你觉得百度蜘蛛的访问行为有任何不合理的情况,你可以反馈至投诉平台或者点一把火烧死它!

  为什么百度蜘蛛不停的抓取我的网站?

  如果你网站上有新产生的或者持续更新的页面,百度蜘蛛就会持续抓取。当然,你可以检查网站访问日志中百度蜘蛛的访问是否正常,以防止有人恶意冒充百度蜘蛛来频繁抓取你的网站。如果你发现百度蜘蛛非正常抓取你的网站,请通过投诉平台反馈给百度,并尽量给出百度蜘蛛对你网站的访问日志,以便于让百度他们跟踪处理。

  如何判断来站抓取的大蜘蛛不是冒充的呢?

  建议你使用DNS反查方式来确定抓取来源的ip是否属于百度。

  例如,在linux平台下,你可以使用hostip命令反解ip来判断是否来自百度蜘蛛的抓取。百度蜘蛛的主机以*.baidu.com或*.baidu.jp的格式命名,非*.baidu.com或*.baidu.jp即为冒充。

  如果你不想你的网站被百度蜘蛛访问

  百度蜘蛛遵守互联网robots(机器人)协议。你可以利用robots.txt文件完全禁止百度蜘蛛访问你的网站,或者禁止百度蜘蛛访问你网站上的部分文件。注意:禁止百度蜘蛛访问你的网站,将使你的网站上的网页,在百度搜索引擎以及所有百度提供搜索引擎服务的搜索引擎中无法被搜索到。关于robots.txt的写作方法,请参看百度官方的介绍:robots.txt写作方法

  您可以根据各产品不同的user-agent设置不同的抓取规则,如果您想完全禁止百度所有的产品收录,可以直接对百度蜘蛛设置禁止抓取。

  以下robots实现禁止所有来自百度的抓取:

  User-agent:Baiduspider

  Disallow:/

  以下robots实现禁止所有来自百度的抓取但允许图片搜索抓取/image/目录:

  User-agent:Baiduspider

  Disallow:/

  User-agent:Baiduspider-image

  Allow:/image/

  请注意:Baiduspider-cpro抓取的网页并不会建入索引,只是执行与客户约定的操作,所以不遵守robots协议,如果Baiduspider-cpro给您造成了困扰,请联系union1@baidu.com。

  Baiduspider-ads抓取的网页并不会建入索引,只是执行与客户约定的操作,所以不遵守robots协议,如果Baiduspider-ads给您造成了困扰,请联系您的客户服务专员。

  为什么你的网站已经加了robots.txt,还能在百度搜索出来?

  因为搜索引擎索引数据库的更新是需要时间的。虽然Baiduspider已经停止访问你网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要数月时间才会清除。另外也检查下你的robots配置是否正确。

  如果你的拒绝被收录需求非常急迫,也可以通过投诉平台反馈请求处理。

  如果你希望你的网站内容被百度索引但不被保存快照,你该怎么做呢?

  Baiduspider遵守互联网metarobots(元机器人)协议。你可以利用网页meta(元)的设置,使百度显示只对该网页建索引,但并不在搜索结果中显示该网页的快照。

  和robots的更新一样,因为搜索引擎索引数据库的更新需要时间,所以虽然您已经在网页中通过meta禁止了百度在搜索结果中显示该网页的快照,但百度搜索引擎数据库中如果已经建立了网页索引信息,可能需要二至四周才会在线上生效。

  百度蜘蛛抓取造成的带宽堵塞?

  Baiduspider的正常抓取并不会造成您网站的带宽堵塞,造成此现象可能是由于有人冒充Baiduspider恶意抓取。如果您发现有名为Baiduspider的agent(代理)抓取并且造成带宽堵塞,请尽快和百度联系。你可以将信息反馈至投诉平台,如果能够提供你网站该时段的访问日志将更加有利于百度的分析。

       怎么看网站日志分析百度蜘蛛是否正常?

       网站上线后,勤劳的站长就应该多分析下自己网站日志,这样才能给分析我们网站的问题,比如日志没有蜘蛛来过的痕迹就需要加大站内质量文章的更新,和站外链接引蜘蛛,那么网站日志在那找呢?如何分析呢?

很多虚拟主机控制面板都会有日志下载的功能,也有的在网站根目录下的"log文件夹"或"logfiles文件夹", 通过FTP下载到本地。用记事本打开。

2014-06-19 15:52:03 W3SVC11.197.199.208 GET /zwz/ 80 - 220.181.7.74 Baiduspider+(+baidu/search/ 200 0 0 看到200 0 0大家就放心了。先介绍下200 0 0组成部分

200 0 0

sc-status(协议状态) sc-substatus(协议子状态) sc-win32-status(Win32状态码)

sc-status(协议状态): 200 连接成功

sc-substatus(协议子状态) :0 成功

sc-win32-status(Win32状态码):0 代表抓取成功并带回数据库 ; 64 指定的网络名不再可用

1: 在这个访问记录里面1.197.199.208是你服务器的IP地址,220.181.7.74 是bd蜘蛛的IP/zwz/ 为蜘蛛访问你的页面 80是端口 GET是打开方式 W3SVC1是记录的文件夹,这里说明,bd蜘蛛已经访问了你的/zwz/这个页面,那么最重要的是最后面的这个参数200 0 0.

2、200 0 0 成功访问该页面,0代表抓取成功并带回数据库。这个时候你就放心了,这个页面已经被bd收录,但是还没有释放出来,bd更新时就可能释放出来。

3:200 0 64 网络上流传着这么三种解释

第一有人说64为K站的前兆。

第二说64的出现只是64位操作系统。

第三:网络不可达,由于某种原因无法完全打开页面,或者网络不稳定这些原因,导致蜘蛛无法带回页面或者说不抓取该页面,

反正当出现只抓抓取状态吗为200 0 64的解释也应该为:访问了该页面,但并没有任何抓取也没有带回数据库。这种原因多为空间不稳定、服务器不稳定。也可以解释蜘蛛访问了但快照不更新。

网络营销论坛再来给大家介绍下其它返回码的意思:

4:304 0 0这个返回码代表蜘蛛访问的页面没有更新,和他之前来的时候是一样的,所以看到这个不要担心,蜘蛛来过,只不过你没有更新,所以他也不愿意带走这个页面。

5:404 0 0这个是代表404页面,但是有个很严重的问题,这个返回码告诉我们,蜘蛛来到了404页面并把他带走了要你有太多的404,那么蜘蛛就会不断是抓取,不断的带走,这样会造成无数的重复页面,最终导致K站或者降权。

正确的返回码是404 0 64 这就代表蜘蛛没有抓取你这个页面。 (好像是内容有死链的意思)

6:500错误500错误是服务器内部错误,是由程序的错误造成的,我不懂程序,但是500错误是会给你减分的,这点基本的逻辑都可以想的到,要发现500错误,马上查看是哪个页面的,然后去修正以下错误吧!

7:302要在日志中发现302的返回码也是需要注意的,302为临时重定向,要你是长期的将这个页面重定向到另一个页面,麻烦你使用301永久重定向,要是302的话bd蜘蛛下次来还会访问这个页面,这样又会造成复制大量页面的问题,结果肯定是K,所以,抽空检查以下。

每个网络蜘蛛都有自己的名字,在抓取网页的时候,都会向网站标明自己的身份。网络蜘蛛在抓取网页的时候会发送一个请求,这个请求中就有一个字段为User-agent,用于标识此网络蜘蛛的身份。例如Google网络蜘蛛的标识为GoogleBot,Baidu网络蜘蛛的标识为BaiDuSpider,Yahoo网络蜘蛛的标识为Inktomi Slurp.

栏目列表