大兵浅谈2021搜索引擎几大核心算法与专利解读

大兵浅谈2021搜索引擎几大核心算法与专利解读,其实搜索引擎算法是非常多的,除了公开的一些算法,还有一些是内部保密的算法,我们作为SEO人员需要尽量更多的了解搜索引擎算法.

首先问下大家知道搜索引擎算法有哪些种类吗?前面我们讲过搜索引擎基本的运行原理,原理是搜索引擎算法运行的基础框架,而真正实现关键词排序的规则都是搜索引擎内部算法决定的,搜索引擎公开的算法都是搜索引擎系统的升级完善及漏洞的修补。

搜索引擎排名算法解密

其实搜索引擎算法是非常多的,除了公开的一些算法,还有一些是内部保密的算法,我们作为SEO人员需要尽量更多的了解搜索引擎算法,了解搜索引擎算法运行机制及原理,从而找出一些与SEO优化有一定关联性的算法供我们使用,了解搜索引擎算法运行原理并不是为了作弊,而是为了更好地为网站提供优质内容,提升搜索蜘蛛对网站的抓取效率或者得分,从而达到关键词排名的目的,本文重点谈谈搜索引擎重要的两个核心算法,我们作为SEO优化人员必须要对其这两个核心算法运行机制及原理做基本的了解。

1、搜索引擎核心算法

搜索引擎算法是什么?搜索算法在各大搜索平台都可以查找到,不知道大家平时有没有去研究搜索算法的习惯,例如百度、谷歌google、搜狗、360搜索、bing必应等搜索平台的算法,这些我们都是可以通过他们官方网站或其它平台看到,还有一些算法搜索平台是并没有公布的算法,未公布算法就需要我们进行研究了。
每个搜索引擎平台都有自己独立的搜索排序算法,例如百度、谷歌google、搜狗、360搜索、bing必应等,不过无论是什么搜索引擎平台,核心算法也都是大同小异的,都是基于对文本识别、词频分析等
有的站长可能会问,为什么我的网站关键词在百度搜索排名比较好,而在搜狗、360搜索的排名却不好呢?其实这样的问题还是比较多的,因为不同的搜索引擎平台运行机制会略有区别的,虽然不同的搜索引擎平台运行的原理是一样的,但核心算法是有区别的,所以关键词排序不能跨平台相比,因为本身就不具有可比性。

搜索引擎核心算法解读

1)一般性算法

我们平常了解到的都是搜索引擎基本的算法,每年搜索引擎都会发布很多的算法,也会对算法进行升级,从1.0到2.0,甚至升级到3.0,进行不停的升级,一般搜索引擎官方都会发布通知,例如百度的飓风算法、细雨算法、蓝天算法等,360搜索有悟空算法、哪吒算法等,不同的搜索引擎平台对于算法都有自己的命名方式,搜索引擎公布算法的目的是告诉站长们需要尽快更改完善网站不合格的地方,对站长进行预警,对某一块进行打击,这些都是属于搜索引擎的一些小算法,主要作用是针对搜索引擎系统平台进行完善和修复。

搜索引擎一般性算法

2)核心算法解析

任何搜索引擎都是基于这两种算法,一种是TF-IDF算法,另一处为BM25算法。

(1)了解TF-IDF算法

TF-IDF算法是一种关于文本的算法,任何搜索引擎平台都是对于文字内容的识别,抓取你网站链接,分析你网站文本内容,计算网站关键词的相关性及频率,这些都是基本TF-IDF文本算法,这种算法不适用普通人研究,只适合于科学家研究,我们普通人没有必要深入研究它,因这个算法真的是超级烧脑,我们只面要进行初步了解,对搜索引擎算法有更深一步的认识就行了。
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,看上去虽然有点高大小,但其实就是一中统计方法。
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
解释:意思是一个字或词语在一篇文章中的占比程度,哪些更重要,哪些不重要,字词的重要性简单地讲指的就是词频,增加这个字或词的频率,搜索引擎也就是基于这个对文章内容进行识别的。

百度百科对TF-IDF算法的解释:

TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。

TF-IDF算法的作用:

可以帮助搜索引擎计算此文章页面字或词频,词频高则认为这个字或词很重要,自然给你的得分就会高,如果这个字或词频率低,那么此页页得分就会低,大家也可以根据以下TF-IDF公式进行理解:

TF-IDF算法公式

以上公式主要针对计算文章页面字或词出现频率的解读,通过这个公式进行罗列,百度搜索和谷搜索都在用TF-IDF算法,下面大兵大家进行相应的解读。

TF-IDF算法计算公式

逆向文件频率计算公式
逆向文件频率(Inverse document frequency,IDF)IDF的主要思想是:如果包含词条文档越少,IDF越大,则说明词条具有很好的类别区分能力,某一特定词语的IDF,可以由总文件数目以包含该词语之件的数目,再将得到的商取对数得到。

TF-IDF算法逆向文件频率计算公式
TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间的相关程度的度量或评级,除了TF-IDF以外,因特网上的搜索引擎还会使用基于连结分析评级方法,以确定文件在搜寻结果中出现的顺序。

TF-IDF算法高词语频率计算公式
某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤常见的词语,保留重要的词语。
和道了“词频”和“逆文档频率”(IDF)以后,将这两个值相乘,就得到了一个词的TF-IDF值,某个词对文章的重要性越高,它的TF-IDF值就越大,所以,排在最前面的几个词,就是这篇文章的关键词。
下面就是这个算法的简单分享。
第一步、计算词频

TF-IDF算法计算词频
第二步、计算逆文档频率

TF-IDF算法计算逆文档频率
如果一个词越常见,那么分母就越大,逆文档频率就越小越接见0,分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词)。logo表示对得到的值取对数。
第三步、计算TF-IDF

计算TF-IDF
一个词语在一篇文章中出现的次数越多,同时在所有文档中出现的次数越少,越能够代表该文章,这也是就是TF-IDF的含义。
关于“TF-IDF算法”原理详细解答,点击《TF-IDF算法解释,TF-IDF算法原理及公式》看这篇文章。

有些站长看了以上TF-IDF算法原理的介绍,觉得既然文章内容中关键词的词频越高排名越好,那是不是可以向文章内容中加入大量的关键词,提高该关键词在该文章的密度呢?对于这种问题搜索引擎就推出了第二种算法BM25算法,主要针对的就是大家提出的关键词密度问题,下面一起来看看。

(2)了解BM25算法

BM25算法其实是TFIDF相关性的升级版本,既然是关键词在文章中出现的频率越高排名越好,这就会导致大量站长作弊,例如在一篇文章中插入大量的关键词,提高该关键词在文章出现的频率,其实这种操作方法是正确的。
人为故意增加关键词出现的频率属于作弊优化方法,于是搜索引擎就推出了BM25算法,对你文章内容中关键词的词频进行二次审核,审核文章内容中出现的高频关键词是否与文章具有相关性,例如文章出现的高频关键词与文章主题不相关,也不相匹配,那么搜索引擎就会判断这篇文章内容为作弊的文章,由此可见人为增加文章内容中关键词频率的方法是错误的。

文本相似度-BM25算法原理及实现

以上搜索核心算法较深奥,适合做搜索算法研究和工具工发类站长研究,SEO站长们可作为课外资料学习了解,不需要深究。

3、百度搜索专利技术解析

搜索算法是搜索引擎内部核心运作的一个系统,我们可以通过搜索引擎官方发布的一些专利去研究解读搜索引擎专利技术,研究出来对我们SEO搜索排名有哪些帮助,这个我们也是需要进行了解的。
虽然搜索专利技术的多少代表着搜索引擎公司的核心市场竞争力,搜索专利越多意味着他们掌握着搜索核心技术越多,一个做搜索引擎公司的技术如何,我们看这个搜索引擎公司有多少搜索专利技术就知道了。
我们通过研究搜索引擎的专利技术,可帮助我们更好的了解搜索引擎,从而帮助我们实现更好的SEO效果。
百度搜索大概有70多个搜索专利技术,下面我们给大家解读几个重点的搜索专利技术。
前面我们说过一篇网页可以通过词频获得更高的得分,从而获得网页关键词排序的优先权,那么百度搜索引擎如何知道词频内容是不是我们特意加的呢?关于这个问题百度就发明了以下这个专利技术。

1、对话内容连贯性的判断方法、装置以及设备的搜索专利技术

本发明提出一种对话内容连贯性的判断方法,包括:将上文语句输入至语句生成模型中,生成下文语句:
计算每个上文语句与当前语句之间的相似度,以构建第一相似度矩阵;
计算每个下文语句与当前语句之间的相似度,以构建第二相似度矩阵;
将第一相似度矩阵和第二相似度矩阵分别输入至连贯性判别模型中,生成当前语句的连贯性特征参致,连贯性判别模型是基于卷积神经网络构建的。利用连贯性判别模型和语句生成模型相结合的方式,来解决对话内容连续性问题,可以从语义的维度比对两个句子的连贯性,推送给用户回复连贯性且优质的回复。本发明还提供了一种对话内容连贯性的判断装置以及设备。

对“对话内容连续性的判断方法、装置以及设备”搜索专利技术解读:

(1)“本发明提出一种对话内容连贯性的判断方法”
解读:意思是判断你网页内容是否连贯,对于这个搜索引擎是有一套专业的搜索算法能够发现识别你的网页内容是否连贯,例如你的网页内容上部分讲的是“红烧肉如何做”,而下部分内容却讲的是“女人如何穿搭衣服才更好看”,这样的内容就属于典型的上下内容不连贯不相关。
(2)“计算每个上文语句与当前语句之间的相似度,以构建第一相似度矩阵;计算每个下文语句与当前语句之间的相似度,以构建第二相似度矩阵;将第一相似度矩阵和第二相似度矩阵分别输入至连贯性判别模型中,生成当前语句的连贯性特征参数”这代表的意思是什么呢?
解读:搜索引擎截取你网页内容第一段,再截取你网页内容第二段,两段内容进行相似度的对比,生成一个特征码,再用这个特征码进行判断文章内容之间是否存在关联性。

2、一种网页重复的判断系统及其判断方法的搜索专利技术

本发明公开了一种网页重复的判断系统及其判断方法。该判断方法包括:获取多个网页;分别提取网页的网页正文;从网页正文中提取一个或多个句子,并根据一个或多个句子计算网页正文句子签名;根据网页正文句子签名对多个网页进行聚类;针对每一类下的网页,计算网页的附加签名;根据附加签名判断每一类下的网页是否重复。通过上述方式,本发明提供的网页重复的判断系统及其判断方法通过包括网页正文句子签名在内的多维度签名有效且快速地判断网页是否重复。
解读:搜索引擎系统会提取网页正文内容,分析每个网页中的一个或多个句子找到其规律计算网页正文句子签名,并且这个签名内容是全网唯一的,如果你的这个签名在全网内容中出现的频率高,意味着这个网页内容是重复的,如果你的这个签名重复率不高,则意味着这个网页内容是原创不重复的,因此搜索引擎系统只需要判断网页签名内容的频率,频率越高内容重复度越高,频率越低内容重复度越低。
简单可以理解为网页签名内容的频率越高,内容质量越低,网页关键词排名就越差,反之关键词排名就越好。
以上就是大兵对于这条搜索专利技术简单的理解,具体如何实现的,可参考如下这张图。

一种网页重复的判断系统及基判断方法

网页内容重复的判断系统已经是自动化运作了,如果你从A网站复制一段内容,B网站复制一段内容进行拼凑成一篇内容,这样的内容算不算高质量内容呢?其实无论你再如何拼凑,搜索引擎系统对网站内容的签名是改变不了的,搜索系统根据你的网页签名内容对比搜索引擎索引库内容进行对比,发现你的内容还是重复的,因为搜索引擎签名内容是不会变的。
现在网站优化靠采集抄袭别人网站的内容来达到关键词排名的目的已经不可能实现了。

3、用于处理点击行为数据的方法和装置的搜索专利技术

本申请实施例公开了用于处理点击行为数据的方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:获取预设类别的点击行为数据,点击行为数据包括点击的页面的地址以及执行点击操作的设备的设备标识,对预设类别的点击行为数据进行建模,生成表征设备标识与点击的页面的地址之间的点击关系的关系模型,基于关系模型对设备标识和页面的地址进行聚类,得到至少一个类簇,基于获取到的对至少一个类簇的搜索引擎优化行为检测结果,生成至少一个类簇中的页面的搜索引擎优化行为的类别信息。该实施方式实现了页面的搜索引擎优化行为的检测,并且能够提升搜索引擎优化行为检测的效率。
解读:在2018年开始就有很多的站长利用了所谓的快排技术,以虚拟点击形式增加网页的点击及流量ip,试图通过点击的方式来虚拟的为网站带来流量,针对这种黑帽操作方法搜索引擎就发明了“用于处理点击行为数据的方法和装置”的搜索专利技术,利用这个搜索专利技术靠虚拟点击模拟人工点击是可进行识别出来的。
该搜索专利技术具体运行原理如下图所示:

用于处理点击行为数据的方法和装置搜索专利技术具体运行原理
用于处理点击行为数据的方法和装置搜索专利技术具体运行原理

先获得一个网站正常用户点击的行为数据,然后对这些数据进行建模,生成一个特征设备标识,下次你网站的点击行为与正常用户点击的行为数据模型不一样,突然间流量骤增,系统就会判断你的网站可能存在一种非正常的用户点击行为,例如你的网站正常流量为1000IP,突然暴增到1000IP,此时系统就会判断你的网站流量暴增是不是符合正常规律,是否存在恶意非人工的点击行为,系统会对你近期的流量数据与原始行为数据进行对比,找出你是不是通过点击算法作弊来实现你网站流量的暴增,搜索引擎系统会对这些点击行业数据进行分析,这些数据搜索引擎系统都可以进行判断识别的,因此你认为现在通过虚拟用户点击行为来达到关键词排名目的还可以行吗?
自2019年开始,作黑帽优化的站点陆续都被搜索引擎惩罚了,搞快排、买IP,买PV,买流量这些作弊方法违返了正常的用户点击行为流量的,就容易被搜索引擎算法命中,并且对你的站点进地一个打击,直接表现的结果是你的网站关键词排名突然间就没有了,为什么你的网站关键词排名突然没有了?因你的的黑帽作弊优化方法命中了搜索引擎反作弊的系统,系统认为你在人为的操控流量点击,这种情况就容易被搜索引擎算法打击,比如限制你网站内容展示,限制你网站关键词的排名,甚至直接你的网站关键词排到100名以后,这些都是搜索引擎对你站点的惩罚,因此靠欺骗搜索引擎的黑帽优化方法建议大家远离,不要觉得你用黑帽优化方法搜索引擎识别不到。
通过了解搜索引擎专利技术,原来这么网站优化技巧我们是不知道的,我们为什么要了解搜索引擎专利技术呢?我们可以通过科学专业的角度更多地去理解搜索引擎,了解搜索引擎运行的原理,帮助我们远离作弊,远离一些非法的违规操作,避免网站优化走上弯路。

4、关于搜索算法与总结

1)了解搜索引擎规则,就需要了解搜索算法
我们可以利用相关工具,结合搜索算法工具了解搜索引擎。
(1)摩天楼SEO工具
(2)检测并提升TF-IDF得分
(3)第三方SEO算法工具

摩天楼SEO工具检测方法,可参考《摩天楼网站seo检测工具,附检测报告》这篇文章内容。

2)再高深的算法目的都是简单的:尽全力满足用户需求

原创文章,作者:大兵,如若转载,请注明出处:https://www.zhuzhouren.cn/seojishu/5015.html

发表评论

登录后才能评论
联系我

平时工作忙:合作还是咨询SEO服务,请简明扼表明来意!谢谢!

在线咨询:点击这里给我发消息

邮件:dabingseo@qq.com
工作时间:周一至周六,10:30-24:30,节假日休息

个人微信
个人微信
分享本页
返回顶部