解读百度Baiduspider抓取系统原理和索引建库

解读百度Baiduspider抓取系统原理和索引建库,百度搜索引擎建库前,会把抓取回来的链接进行初步分析,通过分析后,再决定是否对该条链接进行建库。

百度搜索引擎的工作原理,大兵不知道有多少站长认真了解过,下面大兵详细为大家讲解百度Baiduspider搜索的抓取、索引、建库原理,让站长们对百度搜索的抓取、索引、建库原理有更多的了解。

一、搜索引擎Spider抓取系统的基本框架

爆发式互联网信息,如何有效利用这些信息是搜索引擎首先要考虑的事情,数据抓取是搜索引擎系统运行第一步,接着就是数据的保存、更新问题,搜索引擎就像蜘蛛一样在互联网到处爬,英文称为“spider”,国内常用的搜索引擎(spider)蜘蛛有“Baiduspdier、360Spider、Sogou Web Spider”等。
蜘蛛抓取系统是搜索引擎数据的重要来源,先抓取某一个链接,再通过这个链接不断发现新的链接并抓取,尽可能的抓取更多有价值的网页链接,对于像百度这样大型搜索引擎系统,每时每刻都会存在网页被修改、删除、更新的可能,所以,百度搜索还要对抓取过网页链接保持更新,维护一个正常的网页链接索引库。
下图为一个搜索引擎系统抓取链接的基本原理图,包括存储系统、选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统等,百度搜索就是通过这些系统通力合作完成对网页链接抓取工作的。

百度spider抓取系统的基本框架图

二、百度搜索Baiduspider主要抓取策略类型

上图表示的是一个搜索引擎系统Baiduspider抓取网页链接的一个过程,为了可以抓取更多的有用的内容,会保持系统及实际网页环境中页面的一致性,同时不给网站体验造成压力,设计多种复杂的抓取策略,下面给大家做详细的介绍:

1、网页链接抓取的友好性

宠大的网络信息资源,这就要求搜索引擎必须高效利用带宽,抓取更多地有效资源,此时就有可能会造成另一个问题,就是会占用网站更多的带宽资源,如果带宽占用太多就会影响正常用户访问网站,所以,搜索引擎在抓取网站过程中就需要控制抓取压力,这样既不会影响正常用户访问网站,搜索引擎也能抓取更多有用的资源。
一般情奖品下,抓取压力是通过IP进行控制的,如果是基于域名控制,那么就会出现一个域名对多个IP或者多个域名对应多个IP的问题,在实际情况中,往往是根据IP及域名多种条件对抓取压力进行控制的,同时,各大搜索引擎也向站长们推出了抓取压力反馈工具,站长可以根据自己需要调控自己网站的抓取压力,此时,搜索引擎会优先根据站长要求调节网站抓取压力。
对于网站抓取压力的控制一般分为两类:
1、一段时间抓取压力的控制;
2、一段时间内抓取流量的控制;
同一个站点不同时间段内抓取速度也会有所不同,例如,零点以后用户访问低峰时段抓取频率就会高一点,错开用户访问高峰时间段,不断的调整网站抓取压力,对于不同网站抓取频率也是不一样的。

解读百度Baiduspider抓取系统原理和索引建库

三、网页链接重要程度的判断

百度搜索引擎建库前,会把抓取回来的链接进行初步分析,通过分析后,再决定是否对该条链接进行建库,通过分析该条链接发现更多的链接,再进行抓取分析,再决定是否建库,如此循环下去。
理论上,百度蜘蛛会将能抓取回来的链接全部抓取回来,抓取回来这么多链接,搜索蜘蛛是如何判断重要性呢?主要通过以下两方面:

第一、对用户的价值

1、内容是否有新意,是否是蜘蛛喜欢的内容;
2、主体突出,千万不要出现由于主体内容被遮挡而被搜索引擎判断为无效页面的情况;
3、排版清晰,图文并茂,内容丰富;
4、广告出现的位置适当,不能遮挡主体内容;

第二、链接重要程度

1、网站层级架构设计合理,浅层优先;
2、网站内部链接布局合理,符合搜索引擎规范。

解读百度Baiduspider抓取系统原理和索引建库

四、百度搜索优先建库原则

百度蜘蛛抓取了多少链接并不是最重要的,建库了多少条链接才重要,了解过搜索引擎的站长朋友样,应该都知道,搜索引擎建库是分层级的,优质链接会被分到重要索引库,普通链接会被分配到普通索引库,低质的网页会被分到低级库当补充材料,目前,百度搜索60%的检索需求都是调用重要索引库的内容,这也就解释了为什么有的网站收录高流量却一直不理想的原因。
那么,哪些网页可以进重要索引库呢?其实原则只有一个,那就是对用户有价值,包括但不限于:
1、有时效性且有价值的内容,时效性和价值是并列关系,缺一不可,有些站长为了网站能够产生时效性内容,于是采集了大量低质内容,导致网站产生了一堆无价值页面,这也是百度搜索引擎不喜欢的;
2、优质专题页面,专题页面内容不要求全部原创,可以将各方面内容整合在一起,再增加一些新鲜内容,例如新观点和评论,给用户提供更全面的内容;
3、高质原创内容,百度把用户花费一定时间成本、经验积累提取后内容称之为优质内容,伪原创并不属于原创内容;
4、名人网页,例如美国已故篮球运动员科比,在新浪微博注册了一个帐号,即使他长期不更新,百度仍然认为它是一个重要网页。

五、哪些链接无法建库

优质链接进了重要索引库,其实互联网上很多链接根本是无法建库的,并不是没有被百度蜘蛛发现,而是它们在分析环节就被百度过滤掉了,那么什么样的网页链接会被过滤掉呢?下面来看看。
1、重复的内容,在百度索引库中已存在的内容,而且你的内容还是低质内容,百度认为已没有建库必要。
2、空短的主体网页内容
1)使用了百度不能识别的网页技术,例如JS、AJAX等,虽然用户可以看到,但搜索引擎是不能识别的。
2)加载速度过慢的网页,这些网页有可能被搜索引擎当作无效页面处理了,注意网页广告加载时间也计算在内。
3)主体内容不突出的网页,即使被百度搜索抓取回来了也会被过滤掉。
3、部分作弊网页
更多关于百度Baiduspider抓取原理和建库原理,大家可以前往百度站长论坛。

本篇文章发布于大兵SEO博客,为大兵原创内容,如若转载,请注明出处:https://www.zhuzhouren.cn/seojishu/seosuanfa/11844.html,否则,禁止转载,谢谢配合!

(1)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-01-01 16:24
下一篇 2023-04-15 22:02

发表回复

登录后才能评论
联系我

平时工作忙:合作还是咨询SEO服务,请简明扼表明来意!谢谢!

在线咨询:点击这里给我发消息

邮件:dabingseo@qq.com
工作时间:周一至周六,10:30-24:30,节假日休息

个人微信
个人微信
分享本页
返回顶部