天天站长

 找回密码
 用户注册
查看: 422|回复: 1

如何应对百度抓取失败?

[复制链接]

44

主题

0

听众

261

积分

中级会员

Rank: 2

UID
58579
积分
261
威望
0
金币
172
贡献
0
活跃
28
魅力
1
注册时间
2012-3-13
发表于 2012-5-31 13:17:56 |显示全部楼层
首先说明,spider的抓取失败分为两种:百度自身系统问题、外界站长问题。
  这里主要是和各位站长的交流,所以着重说下“外界站长问题”导致的抓取失败,并且影响到站点从百度获得的流量问题。
  目前百度spider系统中能够统计到的失败分为几种:
  1,UA/IP封禁
  对于百度的ua或者IP进行封禁,会导致百度不能成功抓取您的站点,从而不能成功抓取新网页,以及将之前已经抓到的页面判定为死链,并会进行清理,这样最终导致站点获得的流量减少。此外,还会有一些冒充百度spider的抓取和采集,可以使用DNS反查方式来确定抓取来源的ip是否属于百度,防止误封禁。
  2,压力过大的偶然封禁
  首先,我们会根据站点的规模,访问量等信息,建立一个合理的站点抓取压力。但是会有一些例外,在压力控制不好的情况下,服务器会根据自身负荷进行保护性的偶然封禁,对于这样的情况,如果压力过大,请在返回码中尽量不要使用404,建议返回503(其含义是“ServiceUnavailable”)。这样百度spider会过段时间再来尝试抓取这个链接,如果那个时间站点空闲,那它就会被成功抓取了。
  3,站点服务不稳定&更换服务
  尽量的保证您的网站稳定,如果需要暂时换服务,需要暂时让旧服务能够使用一段时间,并且做301跳转,尽量减少改版带来的流量损失。虽然百度spider现在对301跳转的响应周期较长,但我们还是推荐大家这么做。
  除了以上介绍的典型封禁,还有一些其他非典型的,比如:refer、ua作弊、js等,这些封禁都会导致百度失败,从而把已经抓到的页面进行删除,或者不能成功抓取新页面,这样会直接影响到网站的流量。
  最后,希望站长尽量保持站点的稳定,对于暂时不想被百度抓取的页面,使用正确的返回码告知百度,如果确实不想被百度抓取或者索引,可以写robots信息告知。
  此外,我们也会尽最大可能去抓取所有正常站点的内容,并且做好对站点压力的控制。合肥网络公司

0

主题

0

听众

1016

积分

黄金会员

Rank: 4

UID
60080
积分
1016
威望
0
金币
675
贡献
0
活跃
2
魅力
1
注册时间
2013-12-23
发表于 2013-12-23 19:21:28 |显示全部楼层
好贴,绝对要支持下!!~~
[url=http://www.http://www.jsjlbbs.com/[b]建设交流论坛[/b][/url]
[url=http://www.http://www.jsjlbbs.com/][b]施工组织设计[/b][/url]<strong>
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 用户注册


|申请友情链接|关于我们|商家合作|广告报价|联系我们|法律声明|隐私条款|无图浏览|手机浏览|  


敬请您尊重网上道德,遵守《全国人大常委会关于维护互联网安全的决定》及中华人民共和国其它各项有关法律法规。

本网所有帖子均来源网友上传,本站未进行任何修改和未获取任何利益,且仅代表作者本人意见,不代表本网站立场。

天天站长 技术支持:杭州桐庐家园网络技术有限公司 广告合作:13968063988 在线QQ:18118865

Copyright ©2003-2012 Powered by 安网数据 All Rights Reserved. 备案信息:浙B2-20060153号