搜索引擎工作原理分析及搜索蜘蛛抓取收录排名策略解读

搜索引擎工作原理分析及搜索蜘蛛抓取收录排名策略解读,搜索引擎蜘蛛抓取流程为抓取网页,再放入临时索引库,再筛选,再放到正式索引库中,最后才有关键词查询与排序结果.

一、搜索引擎蜘蛛抓取流程原理

搜索蜘蛛先抓取网页内容,将抓取的网页内容存放于搜索引擎临时库中进行处理,如果此内容对用户有价值,符合搜索蜘蛛收录规则,那么就将此网页内容存放于搜索引擎正式索引库中,如果此网页内容对用户无价值,不符合搜索蜘蛛收录规则,那么直接将此网页内容从临时索引库中删除,这也是你有看到蜘蛛抓取了网页却没有收录的原因之一。

搜索引擎蜘蛛抓取流程原理
搜索引擎蜘蛛抓取流程原理图

只有当你的网页内容进入搜索引擎正式索引库中,才有资格与别的网页竞争排名,至于排在第一页还是第二页,还需要根据搜索引擎算法来决定。
搜索引擎蜘蛛抓取流程:抓取网页—放入临时索引库—筛选—然后到正式索引库—最后才有关键词查询与排序结果。

spider抓取系统的基本框架图
spider抓取系统的基本框架图

搜索蜘蛛先抓取网页中的内容,将抓取回来的网页进行解析,提取出新的链接,然后合并更新链接,重复此步骤,可抓取网站中所有链接,搜索蜘蛛简单地讲就是一个内容抓取程序。

1、http的工作原理

在浏览器中输入一个网址向网站服务器发送http请求,网站服务器接收并解析此请求进行响应,向浏览器客户端返回响应,以http超文件的形式发送给客户端浏览器,以图文并茂的形式展现在用户眼前。
对于网站服务器系统来说,通过浏览器向用户返回的都是网页代码,它并不能知道传输的是文字,还是图片,最后通过web浏览器对网页代码进行渲染,用户看到才是图文并茂的网页内容。
如果我们想要更多的了解搜索引擎,对于http网页的工作原理还是需要有一定了解的。

http的工作原理图
http的工作原理图

 

2、搜索引擎抓取三步曲

搜索蜘蛛对于一个新网页内容,先会抓取网页链接,再进行分析过滤网页链接内容,达到收录标准的内容则进行收录,未达到收录标准的内容则直接删除了,已收录的内容根据搜索算法规则进行排序,最后呈现关键词查询与排序结果。
作为我们只需要知道搜索引擎蜘蛛抓取的三步曲就行了,为“抓取—过滤—收录”这么一个过程。

搜索引擎蜘蛛抓取三步曲

二、如何提升抓取减少过滤

搜索蜘蛛是以游客匿名身份抓取你网页内容的,如果你的网页内容需要输入帐号密码才能访问,这种页面搜索蜘蛛是无法抓取的,需要将开放给搜索引擎,这样搜索蜘蛛才能抓取你的网页内容,注意千万不要限制搜索蜘蛛抓取。

搜索引擎蜘蛛

搜索引擎蜘蛛对于网页内容的可识别性并不高,它只认识文字,例如你网页中的图片如果没有加alt属性,搜索蜘蛛是无法知道图片所要表达的意思,还有视频、JS文件、flash动画、ifame框架内容,搜索蜘蛛都是识别不了的,这些内容很有可能变会被搜索蜘蛛给过滤掉,所以我们在设计网页时,就需要考虑网页内容能不能被搜索蜘蛛识别抓取,如果你的网站页面不需要搜索蜘蛛抓取,也不需要在搜索引擎中参与排名,那就另说了。
当搜索蜘蛛成功抓取网页内容后,然后就是过滤,过滤掉那些不符合搜索引擎收录标准的内容,例如对当前抓取的网页内容进行筛选、剔除,分析网站页面的质量度,计算当前网站页面的权重大小,检查网页更新时间顺序,判断当前抓取的内容对于用户是否有价值。
我们也可简单理解为过滤就是筛选出对于用户无价值、质量度低的内容,保留对用户有价值,质量度高的内容,如果你想提高网站页面的收录率,建议尽量更新对用户有价值,符合搜索引擎收录标准的内容,不要更新低质采集拼接内容。

三、如何提升网站内容收录和索引

1)什么是网站收录和索引

我们通常使用site指令预估网站页面收录量,例如使用site指令“site:www。58。com”查询58同城网站页面百度搜索收录量,如下图所示。

58同城网站页面百度搜索收录量
58同城网站页面百度搜索收录量

例如你的网站有100条数据,而百度搜索只收录你10条页面,那么你的网站页面收录率为10/100=10%;site指令只能查询网站页面大概的收录量,正常情况下网站内容量越多网站收录率就越高,网站页面收录率越高就意味着你的网站流量就会越高,网收收录率高的前提是你的网站内容要够优质,可以帮助用户解决问题,不能是全是采集或转载的内容,注意网站页面收录量并不等于网站索引量,网站收录量是小于索引量的。

2)如何提高网站页面收录,减少网页筛选剔除

(1)如何提高网站页面收录率

首先我们需要增加网站内容的更新频率,提高网站内容更新量,网站内容更新与网站定位要相符,例如你的网站定位是女鞋,那么你的网站内容更新就需要围绕女鞋而展开,而且更新的内容还需要对用户有价值,用户点击进来可以解决用户的问题。
搜索引擎判断网站内容是否对用户有价值的重要依据跳出率,跳出率越高则说明你的网站内容质量不行,自然网站关键词排名也不会好,跳出率越低则说明你的网站内容优质,对用户有价值,网站关键词排名自然就会好。

(2)如何减少网页筛选剔除率

不要更新一些对用户没有作用的垃圾内容,更新网站内容要重视质量,更新100篇低质量内容,不如一篇高质量原创内容,例如有些站长利用采集工具向网站采集大量的垃圾内容,采集这么多内容,搜索蜘蛛不抓取收录也是白搭,网站页面收录与内容质量度也是有一定关系的。
同一篇内容,哪个网站权重高就会优先收录哪个网站,因此说网站页面收录与网站权重高低有一定的关系;
还有就是与网站内容更新时间也有一定关系,先发布的网站内容先收录,后发布的网内容后收录。
完全对用户没有价值的垃圾内容,搜索引擎是不会收录的,就算被搜索蜘蛛抓取了,也会被筛选剔除掉的。

4、关键词查询与排序及搜索结果输出

此过程是搜索引擎最后一个环节,网站关键词排序并不是搜索引擎马上就可以判断的,其实在搜索引擎对网站内容页面建索引库时就已经开始进行分析了,分析网站页面质量度,例如站内结构优化、站内站外投票值、关键词密度等,这些决定了网站页面关键词排序,简单地讲就是我们在搜索引擎搜索一个关键词时,这个关键词的排序是搜索引擎早就分析计算得出的结果。

原创文章,作者:大兵,如若转载,请注明出处:https://www.zhuzhouren.cn/seojishu/4957.html

发表评论

登录后才能评论
联系我

平时工作忙:合作还是咨询SEO服务,请简明扼表明来意!谢谢!

在线咨询:点击这里给我发消息

邮件:dabingseo@qq.com
工作时间:周一至周六,10:30-24:30,节假日休息

个人微信
个人微信
分享本页
返回顶部