百度搜索几次会出来联想词★64xl.com下拉技术霸屏,京东下拉词

2024-08-22
来源:网络整理

    

下拉神器是一款专业的下拉词平台,提供各种下拉功能:百度下拉丶360搜索下拉丶必应搜索下拉丶哔哩哔哩下拉丶抖音下拉等等,里面还有批量做词教程技术,可以一次性做10-50个词,省心高效!批量做词,批量出词,可以实现霸屏效果   

有的客户想删除下拉,但是百度不受理,就可以使用批量做词霸屏技术,实现把那些负面信息顶下去,顶掉的效果=删除效果!欢迎您前来使用!新手不懂使用,请多看2遍视频教程哦!下拉神器100%有效果的!   

给大家看一个下拉神器介绍的视频,看完后,点击下面的按钮进入”下拉神器“     

欢迎使用下拉神器,下拉行业老品牌,如果下拉神器都不好使,整个行业其他平台一样不好使,但是大家一定要多学习多看教程,先学会做词出词的技巧!

    


   


   


下一篇文章内容预览:


   

本文共6704字,阅读时间约20分钟。

前言

自然语言处理中最基本的任务是文本词频统计和关键词提取,在以往的文章中,我们已经详细介绍过,通过词频的统计,我们可以大致了解文章的组成,并在一定程度上理解文章的关键内容。文本关键词抽取可以让我们更直观地理解文章的主题,也可以用来做一些情感分析、内容总结、文本分类和聚类等文本分析工作,这也是很多学者关注的问题。关键词抽取技术中有很多优秀的算法,在本文中,我们将介绍如何使用TF-IDF和这两种算法来实现中文长文本(文章)的关键词抽取。

实施工具——

第三方库是一个用于中文分词和简单文本处理的开源工具包,不仅提供基本的分词功能,还包括词性标注、实体识别和关键词提取功能。基本分词函数以及如何优化分词,在上面链接的文章中已经进行了详细的解释,本文主要介绍如何使用库进行关键词抽取。库中内置了两种关键词抽取算法,分别是上面提到的TF-IDF和算法,是最经典、最常用的关键词抽取算法。

当然,除了库之外,很多与自然语言处理相关的第三方库也提供了关键词抽取功能,比如、-等,但相对来说,它更易用,也好用,所以本文使用的主要工具是,但后续文章也可能会介绍其他更强的工具库。

- IDF 算法 1 算法原理

TF-IDF(Term –(Word -   )是一种统计指标,用于衡量单词在信息检索中的重要性,在文本分析领域被广泛使用。

我们知道,通过分割文档并计算单词频率,我们可以知道文档中出现频率最高的一些单词,然后知道文档中的重要单词。但是,这种方法有一个缺点,那就是一些助词或副词在分词后出现得非常频繁,比如“的”、“非常”和一些标点符号。虽然可以通过删除停用词来消除一些标点符号和不重要的词,但这种方法并不能治愈症状,而且推广性不够。但是,只要我们在词频上增加一个罚分项,就可以大大消除高频但不重要的词,只保留重要的词,即文档的关键词。那么,这种惩罚是什么呢?例如,副词“非常”在文档A中出现得非常频繁,但在其他文档中也出现得非常频繁,达到80%,这意味着如果有100个文档,那么其中80个包含这个词百度搜索几次会出来联想词★64xl.com下拉技术霸屏,京东下拉词,这意味着该词是一个非常常见的词,在文档A中成为关键词的可能性非常低。相反,如果“经济”一词在文件A中出现得频繁,但不如在其他文件中出现得那么频繁,那么该词更有可能被视为一个关键词。其实这就是TF-IDF算法的原理,TF指的是一个词的词频,但是需要先除以文档中的词数总数,以防止TF值更偏向于长文本中的词数,而IDF是词在所有文档中的词频, 然后取对数来得到单词的 IDF 值。最后,将TF值乘以IDF值,得到单词的TF-IDF值,即单词的重要性,算法公式如下。

根据公式,TF-IDF算法需要依赖于大量的文本,只有这样才能更准确地计算出单词的逆文档频率(IDF值)。也就是说,要提取一篇文章的关键词,就需要使用成百上千篇其他不同的文章,这使得算法的实现相当困难,因此库的开发者使用大量的文本(据说是《人民日报》)作为语料库进行提前训练,以获得超过40万字的IDF值, 并将它们保存在库文件中,如下图所示。

提取关键词语专题训练_关键词提取工具_提取词关键工具有哪些

这样,使用库提取文本关键字只需要提供从中提取关键字的文档。

2. 代码实现

如果尚未安装库,则首先需要将其安装在


import jieba.analyse

# 从文本文件中读取文本内容,并作简单清洗
with open('新闻文本.txt', 'r', encoding='utf-8') as file:
    # 去除换行符,使文本连续
    TEXT = file.read().replace('\n', '')

# 使用 jieba 进行 TF-IDF 算法提取文本关键词
keywords = jieba.analyse.extract_tags(
    sentence=TEXT,    # 文本内容
    topK=10,          # 提取的关键词数量
    allowPOS=['n','nz','v', 'vd', 'vn', 'ns', 'nr'],   # 允许的关键词的词性
    withWeight=True,   # 是否附带词语权重
    withFlag=True,    # 是否附带词语词性
)
# 输出提取到的关键词
keywords

# 输出内容如下
"""
[(pair('钟庚赐', 'nr'), 0.564398728854661),
(pair('鲶鱼', 'n'), 0.5130897535042374),
(pair('北极', 'ns'), 0.41047180280338985),
(pair('大鱼', 'n'), 0.2565448767521187),
(pair('事件', 'n'), 0.2565448767521187),
(pair('退休', 'v'), 0.2565448767521187),
(pair('通报', 'n'), 0.20523590140169493),
(pair('违法', 'vn'), 0.20523590140169493),
(pair('问题', 'n'), 0.20523590140169493),
(pair('违规', 'vn'), 0.20523590140169493)]
"
""

在 中,使用 ..()函数可以基于TF-IDF算法提取文章的关键词,其中参数的功能是限制关键词的词性关键词提取工具,分词的常见词性对比可以参考下图。

提取关键词语专题训练_关键词提取工具_提取词关键工具有哪些

三、优缺点分析

通过上面的代码可以发现,基于TF-IDF算法的关键词抽取并不优秀,但也不是很差,和人工抽取有一定的区别,毕竟这项工作本身就是见仁见智的问题。

我们先说说缺点,提取效果一般,一些专有词或者特殊场景下的生词都没有被提取出来,比如“北极鲶鱼”明明可以作为关键词,但是因为词库中没有词,“北极鲶鱼”被分词器分为“北极”和“鲶鱼”, 所以虽然“北极鲶鱼”出现了很多次,但关键词只能是“北极”和“鲶鱼”。因此,该工具仅在文本子集的关键字提取方面表现良好,而对于特定领域的文本处理则相对平庸。此外,该库的 0.42.1 版本自 2020 年发布以来,已经有三年多没有更新了,各种内置的同义词库随着时间的推移变得越来越落后。

说到优点,上述算法/代码最大的优点是它实现起来非常简单,几乎没有难度,非常贴近人,即使没有大量的文本支持,也可以很容易地实现TF-IDF算法,还可以限制关键词的词性, 并给出每个关键字的权重。如果你有更高的要求,那么你需要按照算法的原理来手工擦代码,这一步还涉及到词库的开发、文本语料库的选择和处理等,这比现有的代码要复杂得多,所以这里就不深入讨论了。

算法 1:算法思路

该算法的前身是用于对网页进行排序的算法。它将互联网视为有向图,将互联网上的网页视为节点,其中网页可以链接到其他网页或链接到其他网页。当一个页面经常链接到其他页面时,那么有理由认为该页面很重要,但每个指向页面的反向链接(每次链接)并不同样重要。如果一个网页经常链接到一个垃圾网站,那么这个网页通常也是一个垃圾网站,但如果一个网站链接到另一个重要的网站,那就意味着这个网站也很重要。而外链的权重也与外链的数量有关,例如,一个网页连接到许多其他网页,那么每个链接的权重就不会很高,如果只链接一个网页,链接的权重就会增加很多。为每个页面赋予相同的初始权重,然后迭代更新每个页面的权重,直到所有页面的权重值不再变化,然后就可以按重要性对页面进行排名。

算法实际上是算法对文本的应用。首先,对要处理的文本进行标记,使用所有单词作为候选关键字。然后,基于词与词之间的某种关系,如共现关系,构造图,图中的节点代表候选关键词,边代表两个词之间的关系。在图形上运行算法并迭代,直到它达到稳定状态。最后,每个节点(单词)都被赋予一个权重,权重越高,该词被用作关键词的可能性就越大。

图源网络、侵删2代码实现

该库还内置了提取关键词的算法,我们将以上述文章中的新闻文本为例关键词提取工具,提取出前 10 个关键词。

提取关键词语专题训练_提取词关键工具有哪些_关键词提取工具


<span style="display: block;background: url(" https:="" mmbiz.qpic.cn="" mmbiz_svg="" ush8nb3hz5tvicn8c3yyiam6pibzhyjliaex1vmrpkdan5tlpu1xqowusq5s1jafylhpkqrica2ylsbbibtxj9wvpehocvbavjwo6v="" 640?wx_fmt="svg")" 10px="" 40px="" no-repeat="" rgb(250,="" 250,="" 250);height:="" 30px;width:="" 100%;margin-bottom:="" -7px;border-radius:="" 5px;"="">import jieba.analyse

# 从文本文件中读取文本内容,并作简单清洗
with open('新闻文本.txt', 'r', encoding='utf-8') as file:
    # 去除换行符,使文本连续
    TEXT = file.read().replace('\n', '')

# 使用 jieba 进行 TF-IDF 算法提取文本关键词
keywords = jieba.analyse.textrank(
    sentence=TEXT,    # 文本内容
    topK=10,          # 提取的关键词数量
    allowPOS=['n','nz','v', 'vd', 'vn', 'ns', 'nr'],   # 允许的关键词的词性
    withWeight=True,   # 是否附带词语权重
    withFlag=True,    # 是否附带词语词性
)
# 输出提取到的关键词
keywords

# 输出内容如下
"""
[(pair('钟庚赐', 'nr'), 1.0),
(pair('鲶鱼', 'n'), 0.7769707000291773),
(pair('北极', 'ns'), 0.6686246005812482),
(pair('事件', 'n'), 0.5126830875120408),
(pair('违法', 'vn'), 0.44885458849077187),
(pair('通报', 'n'), 0.4358104933456967),
(pair('违规', 'vn'), 0.3890063023078582),
(pair('应该', 'v'), 0.3501519458778275),
(pair('退休', 'v'), 0.32187418179123195),
(pair('部门', 'n'), 0.31891706852131835)]
"
""

从提取结果来看,该算法和TF-IDF算法都没问题。

3. 优点和缺点概述

由于该算法原则上不需要依赖其他文本集合,只需要一篇文章就可以完成解析,因此与优于 TF-IDF 的 TF-IDF 算法相比,它在任何主题的文本中的表现都应该不会很差。缺点是算法的原理比较抽象,即使想按照原理手写代码,也会觉得困难,但好在这些算法可以直接调用,没有开发成本。

结束语

它是文本分析中最基础、最通用的工具库,如果你看完这篇文章后还有问题,或者在使用中遇到问题,那么不妨留言询问,作者会根据情况提供帮助~

此外,如果你也有关键词抽取/文本分析的实战经验,请留言交流你使用的方法或工具,也许作者会单独添加一篇文章来确认你的方法,让我们一起探索更多的技术吧!

如果你想学习各种编程技能,提高个人竞争力,那么加入我们的数据交流小组吧,欢迎大家在社区中交流、探索、学习、提高!您还可以分享您学到的技能以及您从数据中学到的结果。

按住可扫描代码以加入数据通信学习小组

分享