下拉神器是一款专业的下拉词平台,提供各种下拉功能:百度下拉丶360搜索下拉丶必应搜索下拉丶哔哩哔哩下拉丶抖音下拉等等,里面还有批量做词教程技术,可以一次性做10-50个词,省心高效!批量做词,批量出词,可以实现霸屏效果!
有的客户想删除下拉,但是百度不受理,就可以使用批量做词霸屏技术,实现把那些负面信息顶下去,顶掉的效果=删除效果!欢迎您前来使用!新手不懂使用,请多看2遍视频教程哦!下拉神器100%有效果的!
给大家看一个下拉神器介绍的视频,看完后,点击下面的按钮进入”下拉神器“
欢迎使用下拉神器,下拉行业老品牌,如果下拉神器都不好使,整个行业其他平台一样不好使,但是大家一定要多学习多看教程,先学会做词出词的技巧!
下一篇文章内容预览:
关键词提取方法可以在文档中找到相关的关键词。在本文中,我总结了最常用的关键词提取方法。
什么是关键词提取?
关键词提取是从文本文档中检索关键词或关键短语的过程。这些关键词是从文本文档中的短语中选择出来的,可以描述文档的主题。在本文中,我总结了最常用的自动关键词提取方法。
自动从文档中提取关键字是一种启发式方法,它从文本文档中选择最常见和最重要的单词或短语。我将关键字提取方法归类为自然语言处理领域的一部分,自然语言处理是机器学习和人工智能领域的一个重要领域。
关键词提取器用于提取单词(关键词)或两个或多个单词组成的短语(关键短语)。在本文中,我使用术语“关键词提取”,其中包括关键词提取或关键短语提取。
为什么需要关键词提取方法?
节省时间 - 根据关键词,您可以决定文本(例如文章)的主题是否令您感兴趣以及是否应该阅读。关键词为用户提供了文章或文档主要内容的摘要。
查找相关文档 - 文章数量庞大,我们不可能全部阅读。关键字提取算法可以帮助我们找到相关文章。关键字提取算法还可以自动构建书籍、出版物或索引。
关键词提取作为机器学习的支持——关键词提取算法找到描述文本的最相关词语。它们随后可用于文本可视化或自动分类。
关键词提取方法
在本文中,我将概述一些最常用的关键字提取方法。我将考虑无监督(无需训练)和领域独立的方法。我将方法分为三组:统计方法、基于图的方法和基于向量的嵌入方法。
基于统计的方法
统计方法是最简单的。它们计算关键词的统计数据,并使用这些统计数据对关键词进行评分。一些最简单的统计方法是词频、词搭配和共现。还有一些更复杂的方法,例如 TF-IDF 和 YAKE!。
TF-IDF 或 term - ,计算文档中单词相对于整个语料库(更大的文档集)的重要性。它计算文档中每个单词的频率,并将其除以该单词在整个语料库中的频率的倒数。加权。最后,选择得分最高的单词作为关键词。
TF-IDF的公式如下:

其中 t 是观测值。此方程适用于文档中的每个术语(单词或短语)。方程的蓝色部分是词频 (TF),橙色部分是逆文档频率 (IDF)。
TF-IDF 背后的理念是,文档中出现频率较高的单词不一定是最相关的。该算法青睐那些在文本文档中出现频率较高,但在其他文档中不常见的术语。
TF-IDF的优点是速度快,缺点是需要至少几十篇文档的语料库,并且TF-IDF与语言无关。
YAKE(Yet)是一种利用单个文档的统计特征提取关键词的关键词提取方法。它通过五个步骤提取关键词:
1. 预处理和候选词识别 - 将文本分为句子、块(用标点符号分隔的句子部分)和标记。对文本进行清理、标记化,并识别停用词。
2. 特征提取——该算法计算文档中术语(单词)的以下五个统计特征:
a) 大写 – 计算术语在文本中以大写形式或缩写形式出现的次数(与所有出现次数成比例)。重要术语通常大写更频繁。
b) 术语位置 – 术语在文本中的位置有多中心。越靠近开头的术语越重要。
c) 词频标准化——测量文档中的平衡词频。
d) 术语与上下文的相关性——衡量候选术语同时出现的不同术语的数量。更重要的术语与不太不同的术语同时出现。
e) 术语不同句子 - 衡量术语在不同句子中出现的次数。分数越高,表示术语越重要。
3. 计算术语分数-将上一步中的特征与人工方程组合成单个分数。
4. 生成 n-gram 并计算关键词得分 - 算法识别所有有效的 n-gram。n-gram 中的单词必须属于同一块,并且不能以停用词开头或结尾。然后,算法通过将每个 n-gram 划分为 -gram 成员得分来生成 n-gram,并将其相乘并归一化以减少 n-gram 长度的影响。对停用词进行不同的处理以最大限度地减少其影响。
5. 去重和排名——在最后一步,算法会删除相似的关键词。它会保留更相关的关键词(得分较低的关键词)。相似度是使用相似度、Jaro-相似度或序列匹配器计算的。最后,根据关键词的得分对关键词列表进行排序。
YAKE的优点是不依赖于外部语料库、文本文档的长度、语言或领域,与TF-IDF相比,它是以单个文档为基础提取关键词,不需要庞大的语料库。

基于图的方法
基于图的方法从文档中生成相关术语的图。例如,图将文本中同时出现的术语连接起来。基于图的方法使用考虑图结构的图排序方法来对顶点重要性进行评分。最著名的基于图的方法之一是。
它是一种基于图的排序方法,用于提取相关句子或查找关键词。我将重点介绍其在关键词提取中的应用。该方法通过以下步骤提取关键词:
1. 使用词性 (PoS) 标签对文本进行标记和注释。
2. 词共现图构建——图中顶点为选定词性标签的词(作者只选取名词和形容词以获得最佳效果)。如果两个顶点出现在文本窗口中的 N 个词中,则它们以一条边相连(根据作者的实验,最佳效果 N 为 2)。该图无向且无权。
3. 图排序——将每个顶点的得分设置为 1,并在图上运行排序算法。作者使用的算法主要用于对网站图进行排名。算法使用上图中的公式。顶点 Vi 的权重 S(Vi) 是通过考虑连接到节点 Vi 的顶点的权重来计算的。在等式中,d 是阻尼因子,设置为 0.85,如论文中所述。In(Vi) 是到顶点 Vi 的流入。Out(Vj) 是从顶点 Vj 的出站链接。由于我们考虑的是无向图,因此顶点的入站链接和顶点的出站链接是相同的。算法在每个节点上运行多次迭代,直到节点上的权重收敛——迭代之间的变化小于 0.0001。
4. 得分最高的单词选择 - 单词(顶点)按得分最高的单词到得分最低的单词排序。最后,算法选择前 1/3 的单词。
5.关键词提取——这一步,如果上一步选中的单词在文本中一起出现,则将它们拼接起来形成多词关键词,新构建的关键词得分为各单词得分之和。
该算法针对每篇文档单独执行,不需要文档语料库即可提取关键字。该算法也与语言无关。
RAKE()是另一种基于图的关键词提取算法。该算法基于这样的观察:关键词通常由多个单词组成,并且通常不包含停用词或标点符号。
它包括以下步骤:
1.候选关键词提取——基于停用词和短语分隔符对候选关键词进行文本分割。候选关键词是两个停用词或短语分隔符之间的短语。例如,短语分隔符是标点符号。
2. 关键词共现图构建 - 图中顶点为单词。如果它们一起出现在候选关键词中,则它们是相连的。该图是有权重的 - 权重是连接词一起出现在候选关键词中的次数。该图还包括与顶点本身的连接(每个单词都与其自身一起出现在候选关键词中)。
3. 单词评分 - 图中的每个单词都按以下分数之一进行评分:
a) 度 deg(w) — 与单词 w 同时出现的单词数(边权重之和,包括指向顶点本身的边)。度有利于出现频率更高且关键词更长的单词。

b) 词频 freq(w) — 单词在任何候选关键词中出现的次数。频率有利于出现更频繁的单词。
c) 度频比 deg(w)/freq(w) - 此指标偏向于主要出现在较长候选关键词中的单词。建议使用单词度或度频比。由此,排名将有利于较短的关键词。
4. 候选关键词得分——每个候选关键词的得分是其成员词得分的总和。
5. 相邻关键词 – 候选关键词不包括停用词。由于有时停用词可能是关键词的一部分关键词提取工具,因此在此步骤中添加它们。算法在文本中找到与停用词相连的关键词。关键词对并将其添加到现有的停用词集中。它们必须在要添加的文本中至少出现两次。新关键词的得分是其成员关键词的总和。
6.关键词提取——结果提取出了得分最高的1/3关键词。
RAKE 和 的主要区别在于,RAKE 考虑候选关键词内的共现情况,而不是固定窗口。它使用更简单、更具统计性的评分程序。该算法分别针对每个文档进行操作,因此关键词评分不需要文档语料库。单词提取。
基于深度学习
深度学习的出现使得基于嵌入的方法成为可能。研究人员已经开发了几种使用文档嵌入的关键词提取方法(例如百度关键词搜索技巧【64xl.com下拉神器老品牌】百度反馈删除下拉词,等)。
这些方法主要寻找候选关键词列表(例如,et al. 只考虑由名词和形容词组成的关键词),将文档和候选关键词嵌入到同一个嵌入空间中,并测量文档和关键词嵌入之间的相关性和相似性(例如余弦相似性),根据相似性度量选择与文档文本最相似的关键词。
总结
在本文中,我们介绍了几种从统计、基于图和嵌入方法中提取关键字的方法。由于该领域非常活跃,我将仅介绍最常见的方法。我将仅考虑无监督方法的子集(它们不需要)。还有监督方法,它们是在带注释的文档的训练数据集上进行训练的。它们表现良好,但在实践中很少使用,因为它们需要训练并且需要带注释的文档数据集关键词提取工具,并且结果通常仅对训练数据集中的主题有效。
参考
[1]-,,等人。 。 :1801。,2018。
[1] ,,等。YAKE!来自。,2020,509:257–289。
[3] , 。 术语及其在 。 中, 1972 年。
[4] ,Rada;,Paul。:进入。2004。在:为。
[5] Rose, ,等。来自 。文:和 ,2010,1:1-20。