天天站长

 找回密码
 用户注册
查看: 356|回复: 2

蜘蛛爬行的方法

[复制链接]

170

主题

1

听众

689

积分

高级会员

Rank: 3Rank: 3

UID
59980
积分
689
威望
0
金币
481
贡献
0
活跃
15
魅力
1
注册时间
2013-6-3
发表于 2013-6-6 16:49:25 |显示全部楼层
蜘蛛爬行的方法
  日志分析后,我们能看到的网站,用蜘蛛抓取的目录的目录深度的重要目录的抓取,无效的页目录的抓取。后cf目录的网页并包括情况下,我们将能够发现更多的问题。关于非常重要的目录,需要通过内部和外部的调整,增加了重量,爬行,停止在robots.txt屏蔽无效页。网上投注    http://www.puyunji.com
  经过多天的日志统计信息,我们就可以看到效果的站内外行为带来的目录,优化合理的达到预期的效果。关于在长期的一段时间看同一个目录下,我们可以看到的目录页,推测基于行为表现的原因。
  3,网页抓取  全讯网    http://www.lidaogg.com
  Web日志分析,我们可以看到详细的蜘蛛爬行的页面。在这些网页上, 可以分析出蜘蛛抓取的页面,需要停止爬行,爬行没有包含在值的页面,抓取重复页面的url蜘蛛资源,丰富的应用程序,我们要求这些地址制止的在robots.txt爬行。
  此外,我们也能剖析为什么不爬不包括页面,但不包括或爬行,但没有公布新的文章。关于阅读页面的一些意义不大,我们要求它爬行通道,在这些网页上,我们是否可以做NOINDEX标签等。另一方面,将弱智的蜘蛛抓取的页面你依靠这些毫无意义的频道页面上的蜘蛛不明白网站地图的吗?在这方面,笨鸟有疑问,寻求分享经验]
  4,蜘蛛访问IP
  它已经提出了蜘蛛的IP段判别网站降权的情况,前笨鸟认为这是没有意义的,因为后者的智力也。降权更前三个数据应该受到歧视歧视的意义不大,只用一个IP段。 IP更多有用的分析,应区分是否存在收集蜘蛛,的假蜘蛛的恶意点击蜘蛛。
  5,获得国家代码
  蜘蛛经常出现的状态代码,如301404,及时处置,防止产生不良的影响在网站上显示这些状态码。
  6,抓取时间段
  爬行蜘蛛小时比照多个单日量进行分析,我们可以了解一个特定的蜘蛛关于本网站热闹的特定时间段。 CF每周数据,我们将在一个星期内,可以看到一个特定的蜘蛛的活跃周期。明白了这一点,有一定的指导意义,之前所谓的小三,四,网站内容的更新,都是不科学的争论。
  7,蜘蛛爬行的方法
  Web日志,我们能够追踪到具体的IP接入方式,如果我们追踪的途径,可以找到一个特定的蜘蛛访问的网站偏好结构下的蜘蛛爬行途径。因此,我们可以适当的引导蜘蛛爬行途径,更重要的,有价值的,新的更新页的蜘蛛爬行。抓取方面,我们双解析的喜好网址的逻辑结构,物理结构的途径爬行的喜好。在这些之后,让我们检查从搜索引擎的角度来看自己的网站
游戏官网   http://www.ldime.com
淘金娱乐城  http://www.txljh.com

0

主题

0

听众

1016

积分

黄金会员

Rank: 4

UID
60080
积分
1016
威望
0
金币
675
贡献
0
活跃
2
魅力
1
注册时间
2013-12-23
发表于 2013-12-24 00:28:31 |显示全部楼层
看帖子的要发表下看法
[url=http://www.http://www.jsjlbbs.com/[b]建设交流论坛[/b][/url]
[url=http://www.http://www.jsjlbbs.com/][b]施工组织设计[/b][/url]<strong>
回复

使用道具 举报

18

主题

0

听众

211

积分

中级会员

Rank: 2

UID
60070
积分
211
威望
0
金币
99
贡献
0
活跃
36
魅力
6
注册时间
2013-12-12
发表于 2014-2-10 10:17:17 |显示全部楼层
好帖子,顶一个
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 用户注册


|申请友情链接|关于我们|商家合作|广告报价|联系我们|法律声明|隐私条款|无图浏览|手机浏览|  


敬请您尊重网上道德,遵守《全国人大常委会关于维护互联网安全的决定》及中华人民共和国其它各项有关法律法规。

本网所有帖子均来源网友上传,本站未进行任何修改和未获取任何利益,且仅代表作者本人意见,不代表本网站立场。

天天站长 技术支持:杭州桐庐家园网络技术有限公司 广告合作:13968063988 在线QQ:18118865

Copyright ©2003-2012 Powered by 安网数据 All Rights Reserved. 备案信息:浙B2-20060153号