第一步,计算词频
步骤2:计算逆文档频率
如果一个词越常见,分母就会越大,逆文档频率就会越小,越接近0。之所以分母加1,是为了避免分母为0(即所有文档不包含这个词)。 logo表示将所得值取对数。
步骤 3. 计算 TF-IDF
一个词在一篇文章中出现的次数越多,在所有文档中出现的次数越少,则该词越具有该文章的代表性。这就是TF-IDF的意义。
关于“TF-IDF算法”原理的详细解答,请点击“TF-IDF算法讲解、TF-IDF算法原理及公式”阅读本文。
有的站长看了上面对TF-IDF算法原理的介绍,觉得既然文章内容中关键词的词频越高,排名就越好,那么是不是可以在文章内容中添加大量的关键词来提高排名呢?文章中关键词的排名?密度怎么样?针对这类问题,搜索引擎推出了第二种算法,即BM25算法,主要针对大家提出的关键词密度问题。我们一起来看看吧。
(2)了解BM25算法
BM25算法实际上是相关性的升级版。由于关键词在文章中出现的频率越高,排名就越好。这会导致大量站长作弊,比如在文章中插入大量关键词来增加关键词数量。单词在文章中出现的频率实际上是正确的。
刻意提高关键词的频率是一种作弊的优化手段,所以搜索引擎推出了BM25算法,对你的文章内容中的关键词词频进行二次审核,来审核文章内容中出现的高频关键词是否一致与文章。相关性,例如,如果文章中出现的高频关键词与文章主题不相关或不匹配,那么搜索引擎就会判断该文章内容为作弊文章。这说明了如何人为地提高文章内容中关键词的出现频率。是错误的。
以上搜索核心算法比较深奥,适合搜索算法研究和工具开发站长研究。 SEO站长可以将其作为课外资料来学习和理解,无需深究。
3、百度搜索专利技术分析
搜索算法是一个系统,是搜索引擎内部的核心运算。我们可以通过搜索引擎官方发布的一些专利来研究解读搜索引擎专利技术,看看它对我们的SEO搜索排名有何帮助。我们也需要了解这一点。
虽然搜索专利技术的数量代表了一个搜索引擎公司的核心市场竞争力,但搜索专利越多,意味着其拥有的核心搜索技术越多。搜索引擎公司的技术怎么样?我们来看看搜索引擎公司有多少搜索量。只要知道专利技术就可以了。
通过研究搜索引擎的专利技术,可以帮助我们更好的了解搜索引擎,从而帮助我们取得更好的SEO效果。

百度搜索拥有70多项搜索专利技术。下面我们将为您讲解一些关键的检索专利技术。
前面我们说过,网页可以通过词频获得较高的分数,从而获得网页关键词排名的优先权。那么百度搜索引擎如何知道该词频内容是否是我们专门添加的呢?针对这个问题,百度发明了以下专利技术。
1、检索判断对话内容连贯性的方法、装置和设备的专利技术
本发明提出一种判断对话内容连贯性的方法,包括:将上述句子输入句子生成模型,生成如下句子:
计算之前每条语句与当前语句的相似度,构建第一相似度矩阵;
计算后面每个句子与当前句子的相似度,构造第二相似度矩阵;
将第一相似度矩阵和第二相似度矩阵分别输入到连贯性判别模型中,生成当前句子的连贯性特征参数。基于神经网络建立相干判别模型。采用连贯判别模型和句子生成模型相结合的方式解决对话内容连续性问题。它可以从语义维度比较两个句子的连贯性,并向用户推送连贯、高质量的回复。本发明还提供了一种判断对话内容连续性的装置及设备。
“判断对话内容连续性的方法、装置及设备”检索专利技术解读:
(1)“本发明提出了一种判断对话内容连贯性的方法”
解释:就是判断你的网页内容是否连贯。对于这个搜索引擎来说,有一套专业的搜索算法,可以发现并识别你的网页内容是否连贯。例如,你的网页内容的上半部分讲的是“如何做红烧肉”,而下半部分的内容是“女人如何穿衣服更好看”。这种内容是典型的语无伦次、不相关的内容。
(2)“计算上述每个句子与当前句子的相似度,构建第一相似度矩阵;计算下面每个句子与当前句子的相似度,构建第二相似度矩阵;将第一相似度矩阵和第二相似度矩阵分别输入到连贯性判别模型中,生成当前句子的连贯性特征参数。 “这是什么意思?”
解读:搜索引擎截取你网页内容的第一段,然后截取你网页内容的第二段,比较两段之间的相似度,生成一个特征码,然后用这个特征码来判断是否存在相关性文章内容之间。 。
2、一种网页重复判断系统的检索专利技术及其判断方法
本发明专利公开了一种网页重复判断系统及判断方法。该判断方法的步骤为:首先提取网页主体内容;从网页主体中提取一个或多个句子,并根据一个或多个句子计算网页主体句子签名;根据网页主体句子签名对多个网页进行聚类;对于每个类别下的网页,计算该网页的附加签名;根据附加签名判断各类别下的网页是否重复。通过上述方法,网页重复判断系统及判断方法利用包括网页主体语句签名在内的多维签名来有效、快速地判断网页是否重复。
解读:搜索引擎系统会提取网页的文本内容,分析每个网页中的一个或多个句子,找出其规则,并计算该句子在网页正文中的签名,这个签名内容为在全网独一无二。如果您的签名在整个网络内容中出现的频率较高,则说明该网页内容重复。如果您的签名重复率不高,则说明该网页内容是原创的,没有重复。因此,搜索引擎系统只需要确定网页签名内容的出现频率即可。频率越高,内容重复越多,频率越低,内容重复越少。
可以简单理解为,网页上签名内容的出现频率越高、内容质量越低,该网页的关键词排名就越差,反之,关键词排名就越好。
以上是大兵对这项检索专利技术的简单理解。详细实现方法请参考下图。

判断重复网页内容的系统已经自动化。如果你复制A网站的一段内容和B网站的一段内容,拼凑成一个内容,这个内容算优质内容吗?事实上,无论你如何拼凑,搜索引擎系统对网站内容的签名都无法改变。搜索系统将你的网页签名的内容与搜索引擎索引库的内容进行比较,发现你的内容仍然是重复的,因为搜索引擎签名的内容是不会改变的。
如今,通过收集和抄袭别人网站的内容很难实现排名。
3、检索处理点击行为数据的方法和装置的专利技术
该专利搜索技术用于处理异常点击行为数据的方法、装置、电子设备和计算机可读介质。该方法的具体实现包括:获取预设的类别点击行为数据。点击行为数据包括点击页面地址和点击操作的执行情况。设备标识,对预设类别的点击行为数据进行建模,生成设备标识与被点击页面地址之间的点击关系模型,根据该关系模型对设备标识和页面地址进行聚类,得到至少一个 ,根据获得的至少一簇的搜索引擎优化行为检测结果,生成至少一簇内的页面的搜索引擎优化行为的类别信息。本实施例实现了页面的搜索引擎优化行为的检测,能够提高搜索引擎优化行为检测的效率。
解读:早在2018年,就有不少站长利用所谓的快队列技术,通过虚拟点击增加网页上的虚拟点击量和虚拟流量IP,试图通过点击给网站带来虚拟流量。搜索引擎随后发明了“处理点击行为数据的方法及装置”的专利搜索技术。这项专利搜索技术可通过模拟虚拟点击来识别人为点击。
该检索专利技术的具体工作原理如下图所示:
首先获取正常用户的点击行为数据,然后对这些数据进行建模,生成特征设备标识符。当下次网站点击行为与正常用户点击行为数据模型不同时,系统就会判定您的网站可能存在问题。用户点击行为异常。例如,如果您网站的正常流量突然增加,请将您最近的流量数据与原始行为数据进行比较,以找出您是否通过点击算法作弊来实现网站流量的突然增加。搜索引擎系统会对这些点击行为数据进行分析。所有这些数据都可以通过搜索引擎系统进行分析。进行了判断和识别,那么您认为通过虚拟用户点击行为来达到关键词排名的目的是否还可行呢?
2019年以来,黑帽优化网站陆续受到搜索引擎的惩罚。快速排名、购买IP、购买PV、购买流量等作弊手段都违反了正常的用户点击行为数据,因此很容易受到搜索引擎算法的影响。点击并点击网站。遭受打击的直接表现就是网站关键词排名突然消失。为什么网站关键词排名突然消失了?因为你的黑帽作弊优化方法命中了搜索引擎的反作弊系统,系统认为你在人为操纵流量点击。这种情况很容易受到搜索引擎算法的攻击,比如限制你的网站内容的展示,限制你的网站关键词。排名,甚至直接在你的网站关键词排名100之后,这些都是搜索引擎对网站惩罚的表现。因此,建议大家远离依赖欺骗搜索引擎的黑帽优化方法。不要认为您当前正在使用黑帽优化方法。搜索引擎系统还无法识别它。
通过了解搜索引擎专利技术,原来我们并不知道这么多的网站优化技巧。为什么我们需要了解搜索引擎专利技术?我们可以从科学、专业的角度更好地了解搜索引擎以及搜索引擎的运行原理,这可以帮助我们远离作弊,远离一些非法操作,在网站优化中少走弯路。
4. 搜索算法及总结
1)要了解搜索引擎规则,需要了解搜索算法
我们可以使用关联工具和搜索算法工具来了解搜索引擎。
(1)摩天大楼SEO工具
(2)检测并提高TF-IDF分数
(3)第三方SEO算法工具
2)任何高级算法的目标都很简单:尽最大努力满足用户的需求
对SEO感兴趣的同学可以关注我或者直接私信我,领取更多SEO学习资料。