北京华网天下

百度搜索几次会出来联想词★64xl.com下拉技术霸屏，京东下拉词

2024-08-22

来源：网络整理

下拉神器是一款专业的下拉词平台，提供各种下拉功能：百度下拉丶360搜索下拉丶必应搜索下拉丶哔哩哔哩下拉丶抖音下拉等等，里面还有批量做词教程技术，可以一次性做10-50个词，省心高效！批量做词，批量出词，可以实现霸屏效果！

有的客户想删除下拉，但是百度不受理，就可以使用批量做词霸屏技术，实现把那些负面信息顶下去，顶掉的效果=删除效果！欢迎您前来使用！新手不懂使用，请多看2遍视频教程哦！下拉神器100%有效果的！

给大家看一个下拉神器介绍的视频，看完后，点击下面的按钮进入”下拉神器“

欢迎使用下拉神器，下拉行业老品牌，如果下拉神器都不好使，整个行业其他平台一样不好使，但是大家一定要多学习多看教程，先学会做词出词的技巧！

下一篇文章内容预览：

本文共6704字，阅读时间约20分钟。

前言

这

自然语言处理中最基本的任务是文本词频统计和关键词提取，在以往的文章中，我们已经详细介绍过，通过词频的统计，我们可以大致了解文章的组成，并在一定程度上理解文章的关键内容。文本关键词抽取可以让我们更直观地理解文章的主题，也可以用来做一些情感分析、内容总结、文本分类和聚类等文本分析工作，这也是很多学者关注的问题。关键词抽取技术中有很多优秀的算法，在本文中，我们将介绍如何使用TF-IDF和这两种算法来实现中文长文本（文章）的关键词抽取。

实施工具——

第三方库是一个用于中文分词和简单文本处理的开源工具包，不仅提供基本的分词功能，还包括词性标注、实体识别和关键词提取功能。基本分词函数以及如何优化分词，在上面链接的文章中已经进行了详细的解释，本文主要介绍如何使用库进行关键词抽取。库中内置了两种关键词抽取算法，分别是上面提到的TF-IDF和算法，是最经典、最常用的关键词抽取算法。

当然，除了库之外，很多与自然语言处理相关的第三方库也提供了关键词抽取功能，比如、-等，但相对来说，它更易用，也好用，所以本文使用的主要工具是，但后续文章也可能会介绍其他更强的工具库。

- IDF 算法 1 算法原理

TF-IDF（Term –（Word - ）是一种统计指标，用于衡量单词在信息检索中的重要性，在文本分析领域被广泛使用。

我们知道，通过分割文档并计算单词频率，我们可以知道文档中出现频率最高的一些单词，然后知道文档中的重要单词。但是，这种方法有一个缺点，那就是一些助词或副词在分词后出现得非常频繁，比如“的”、“非常”和一些标点符号。虽然可以通过删除停用词来消除一些标点符号和不重要的词，但这种方法并不能治愈症状，而且推广性不够。但是，只要我们在词频上增加一个罚分项，就可以大大消除高频但不重要的词，只保留重要的词，即文档的关键词。那么，这种惩罚是什么呢？例如，副词“非常”在文档A中出现得非常频繁，但在其他文档中也出现得非常频繁，达到80%，这意味着如果有100个文档，那么其中80个包含这个词百度搜索几次会出来联想词★64xl.com下拉技术霸屏，京东下拉词，这意味着该词是一个非常常见的词，在文档A中成为关键词的可能性非常低。相反，如果“经济”一词在文件A中出现得频繁，但不如在其他文件中出现得那么频繁，那么该词更有可能被视为一个关键词。其实这就是TF-IDF算法的原理，TF指的是一个词的词频，但是需要先除以文档中的词数总数，以防止TF值更偏向于长文本中的词数，而IDF是词在所有文档中的词频，然后取对数来得到单词的 IDF 值。最后，将TF值乘以IDF值，得到单词的TF-IDF值，即单词的重要性，算法公式如下。

根据公式，TF-IDF算法需要依赖于大量的文本，只有这样才能更准确地计算出单词的逆文档频率（IDF值）。也就是说，要提取一篇文章的关键词，就需要使用成百上千篇其他不同的文章，这使得算法的实现相当困难，因此库的开发者使用大量的文本（据说是《人民日报》）作为语料库进行提前训练，以获得超过40万字的IDF值，并将它们保存在库文件中，如下图所示。

提取关键词语专题训练_关键词提取工具_提取词关键工具有哪些

这样，使用库提取文本关键字只需要提供从中提取关键字的文档。

2. 代码实现

如果尚未安装库，则首先需要将其安装在

import jieba.analyse

# 从文本文件中读取文本内容，并作简单清洗
with open('新闻文本.txt', 'r', encoding='utf-8') as file:
# 去除换行符，使文本连续
TEXT = file.read().replace('\n', '')

# 使用 jieba 进行 TF-IDF 算法提取文本关键词
keywords = jieba.analyse.extract_tags(
sentence=TEXT, # 文本内容
topK=10, # 提取的关键词数量
allowPOS=['n','nz','v', 'vd', 'vn', 'ns', 'nr'], # 允许的关键词的词性
withWeight=True, # 是否附带词语权重
withFlag=True, # 是否附带词语词性
)
# 输出提取到的关键词
keywords

# 输出内容如下
"""
[(pair('钟庚赐', 'nr'), 0.564398728854661),
(pair('鲶鱼', 'n'), 0.5130897535042374),
(pair('北极', 'ns'), 0.41047180280338985),
(pair('大鱼', 'n'), 0.2565448767521187),
(pair('事件', 'n'), 0.2565448767521187),
(pair('退休', 'v'), 0.2565448767521187),
(pair('通报', 'n'), 0.20523590140169493),
(pair('违法', 'vn'), 0.20523590140169493),
(pair('问题', 'n'), 0.20523590140169493),
(pair('违规', 'vn'), 0.20523590140169493)]
"""

在中，使用 ..（）函数可以基于TF-IDF算法提取文章的关键词，其中参数的功能是限制关键词的词性关键词提取工具，分词的常见词性对比可以参考下图。

提取关键词语专题训练_关键词提取工具_提取词关键工具有哪些

三、优缺点分析

通过上面的代码可以发现，基于TF-IDF算法的关键词抽取并不优秀，但也不是很差，和人工抽取有一定的区别，毕竟这项工作本身就是见仁见智的问题。

我们先说说缺点，提取效果一般，一些专有词或者特殊场景下的生词都没有被提取出来，比如“北极鲶鱼”明明可以作为关键词，但是因为词库中没有词，“北极鲶鱼”被分词器分为“北极”和“鲶鱼”，所以虽然“北极鲶鱼”出现了很多次，但关键词只能是“北极”和“鲶鱼”。因此，该工具仅在文本子集的关键字提取方面表现良好，而对于特定领域的文本处理则相对平庸。此外，该库的 0.42.1 版本自 2020 年发布以来，已经有三年多没有更新了，各种内置的同义词库随着时间的推移变得越来越落后。

说到优点，上述算法/代码最大的优点是它实现起来非常简单，几乎没有难度，非常贴近人，即使没有大量的文本支持，也可以很容易地实现TF-IDF算法，还可以限制关键词的词性，并给出每个关键字的权重。如果你有更高的要求，那么你需要按照算法的原理来手工擦代码，这一步还涉及到词库的开发、文本语料库的选择和处理等，这比现有的代码要复杂得多，所以这里就不深入讨论了。

算法 1：算法思路

这

该算法的前身是用于对网页进行排序的算法。它将互联网视为有向图，将互联网上的网页视为节点，其中网页可以链接到其他网页或链接到其他网页。当一个页面经常链接到其他页面时，那么有理由认为该页面很重要，但每个指向页面的反向链接（每次链接）并不同样重要。如果一个网页经常链接到一个垃圾网站，那么这个网页通常也是一个垃圾网站，但如果一个网站链接到另一个重要的网站，那就意味着这个网站也很重要。而外链的权重也与外链的数量有关，例如，一个网页连接到许多其他网页，那么每个链接的权重就不会很高，如果只链接一个网页，链接的权重就会增加很多。为每个页面赋予相同的初始权重，然后迭代更新每个页面的权重，直到所有页面的权重值不再变化，然后就可以按重要性对页面进行排名。

算法实际上是算法对文本的应用。首先，对要处理的文本进行标记，使用所有单词作为候选关键字。然后，基于词与词之间的某种关系，如共现关系，构造图，图中的节点代表候选关键词，边代表两个词之间的关系。在图形上运行算法并迭代，直到它达到稳定状态。最后，每个节点（单词）都被赋予一个权重，权重越高，该词被用作关键词的可能性就越大。

图源网络、侵删2代码实现

该库还内置了提取关键词的算法，我们将以上述文章中的新闻文本为例关键词提取工具，提取出前 10 个关键词。

提取关键词语专题训练_提取词关键工具有哪些_关键词提取工具

<span style="display: block;background: url(" https:="" mmbiz.qpic.cn="" mmbiz_svg="" ush8nb3hz5tvicn8c3yyiam6pibzhyjliaex1vmrpkdan5tlpu1xqowusq5s1jafylhpkqrica2ylsbbibtxj9wvpehocvbavjwo6v="" 640?wx_fmt="svg")" 10px="" 40px="" no-repeat="" rgb(250,="" 250,="" 250);height:="" 30px;width:="" 100%;margin-bottom:="" -7px;border-radius:="" 5px;"="">import jieba.analyse

# 从文本文件中读取文本内容，并作简单清洗
with open('新闻文本.txt', 'r', encoding='utf-8') as file:
# 去除换行符，使文本连续
TEXT = file.read().replace('\n', '')

# 使用 jieba 进行 TF-IDF 算法提取文本关键词
keywords = jieba.analyse.textrank(
sentence=TEXT, # 文本内容
topK=10, # 提取的关键词数量
allowPOS=['n','nz','v', 'vd', 'vn', 'ns', 'nr'], # 允许的关键词的词性
withWeight=True, # 是否附带词语权重
withFlag=True, # 是否附带词语词性
)
# 输出提取到的关键词
keywords

# 输出内容如下
"""
[(pair('钟庚赐', 'nr'), 1.0),
(pair('鲶鱼', 'n'), 0.7769707000291773),
(pair('北极', 'ns'), 0.6686246005812482),
(pair('事件', 'n'), 0.5126830875120408),
(pair('违法', 'vn'), 0.44885458849077187),
(pair('通报', 'n'), 0.4358104933456967),
(pair('违规', 'vn'), 0.3890063023078582),
(pair('应该', 'v'), 0.3501519458778275),
(pair('退休', 'v'), 0.32187418179123195),
(pair('部门', 'n'), 0.31891706852131835)]
"""

从提取结果来看，该算法和TF-IDF算法都没问题。

3. 优点和缺点概述

由于该算法原则上不需要依赖其他文本集合，只需要一篇文章就可以完成解析，因此与优于 TF-IDF 的 TF-IDF 算法相比，它在任何主题的文本中的表现都应该不会很差。缺点是算法的原理比较抽象，即使想按照原理手写代码，也会觉得困难，但好在这些算法可以直接调用，没有开发成本。

结束语

它是文本分析中最基础、最通用的工具库，如果你看完这篇文章后还有问题，或者在使用中遇到问题，那么不妨留言询问，作者会根据情况提供帮助~

此外，如果你也有关键词抽取/文本分析的实战经验，请留言交流你使用的方法或工具，也许作者会单独添加一篇文章来确认你的方法，让我们一起探索更多的技术吧！

如果你想学习各种编程技能，提高个人竞争力，那么加入我们的数据交流小组吧，欢迎大家在社区中交流、探索、学习、提高！您还可以分享您学到的技能以及您从数据中学到的结果。

按住可扫描代码以加入数据通信学习小组

阅读原文

下一篇：百度收录好的视频平台★能收录，欢迎合作来发，能被百度收录的帖子网站是什么

上一篇：哔站搜索电脑下拉★64xl.com顶级下拉平台，下拉关键词排名