360搜索下拉❝下拉老品牌64xl.com❞百度关键词准吗

2024-08-10
来源:网络整理

下拉神器是一款专业的下拉词平台,为用户提供各种下拉功能:百度下拉丶360搜索下拉丶必应搜索下拉丶哔哩哔哩下拉丶抖音下拉等等,里面还有批量做词教程技术,可以一次性做10-50个词,省心高效!不用一个一个做了,而且批量做词,批量出词,可以实现霸屏效果


有的客户想删除下拉,但是百度不受理,就可以使用批量做词,霸屏技术,实现把那些负面信息顶下去,顶掉的效果=删除效果!欢迎您前来使用!新手不懂使用,请多看2遍视频教程哦!下拉神器100%有效果的!


给大家看一个下拉神器介绍的视频,看完后,直接打开64xl.com进入下拉神器



看完上面视频,相信大家对下拉神器有初步的了解,欢迎使用下拉神器,下拉行业老品牌,如果下拉神器都不好使,整个行业其他平台一样不好使,但是大家一定要多学习多看教程,先学会做词出词的技巧!




下一篇文章内容预览:



它是一种轻量级、无监督的自动关键词提取方法,依靠从单个文档中提取的统计文本特征来识别文本中最相关的关键词。该方法不需要在特定的一组文档上进行训练,也不依赖于词典、文本大小、领域或语言。Yake 定义了一组五个特征来捕获关键词特征,这些特征被启发式地组合起来为每个关键词分配一个分数。分数越低,关键词就越重要。

输出:

['轻量级', '监督', '自动', '分数', '提取', '降低', '关键字', '分配', '统计', '上升']

['分数', '提取', '轻量级', '监督', '自动', '较低', '关键字', '特征', '文本', '关键字']

['轻量级', '监督', '自动', '分数', '较低', '关键字', '提取', '分配', '向上', '统计']

['分数', '轻量级', '提取', '监督', '自动', '较低', '关键字', '特征', '文本', '分配']

['轻量级','监督','自动','提取','较低','统计','关键字','分数','识别','相关']

['轻量级','监督','自动','提取','统计','较低','关键字','识别','相关性','分数']

['轻量级', '监督', '自动', '较低', '关键字', '分数', '分配', '提取', '统计', '上升']

['轻量级', '监督', '自动', '较低', '关键字', '分数', '分配', '提取', '统计', '上升']

['特征', '关键字', '文本', '摘录', '取决于', '文档', '分数', '组合', '定义', '五']

然后我们测试一下云多君的原全文,当补充值为1的时候,提取出了核心主题自然语言和作者云多,效果好不好呢?其实是因为这两个词出现在全文开头,并且它们的上下文中除了停用词之外的词很少,虽然词频指标不佳,但还是有所提升的。输出结果如下:

['自然语言', '句子', '显式', 'NLP', '', '单词', '分数', '', '列表', '场景']

['word', 'en', 'key', '', '', '', '', '', '', '']

['自然语言', '句子', '单词', '明确', '分数', '列表', '', '', 'NLP', '数组']

['en', 'word', '', '', '', '', '', 'BERT', '', '']

['自然语言', '云', '场景', 'NLP', '针对', '语料库', '加权', '任务', '语言', '缺点']

['自然语言', '云', '场景', '针对', '加权', '语料库', 'NLP', '任务', '语言', '缺点']

[‘自然语言’、‘云’、‘场景’、‘任务’、‘语料库’、‘en’、‘加权’、‘测试’、‘检查’、‘缺点’]

[‘自然语言’、‘云’、‘场景’、‘任务’、‘语料库’、‘加权’、‘en’、‘测试’、‘缺点’、‘检查’]

提取关键词语专题训练_提取词关键工具有哪些_关键词提取工具

['单词', '关键字', '文本', '关键字', '提取', '', '短语', '文本', '候选人', '文档']

作者指定关键字:关键词提取、关键短语提取、NLP、Rake、BERT

使用朱自清的《背影》测试结果不理想,输出结果如下:

['两年', '忘了', '冬天', '差事', '交接', '一半', '祸不单行', '相遇', '行李', '再见']

['半个', '葬礼', '见面', '行李', '想起', '徐州', '南京', '橘子', '外婆', '茶馆']

['两年', '忘记', '冬天', '一半', '相遇', '又', '行李', '差事', '交接', '不知道']

['半个', '见面', '葬礼', '行李', '想', '橘子', '南京', '徐州', '黑布', '茶馆']

['两年', '忘了', '冬天', '差事', '交接', '祸不单行', '葬礼', '打算', '跟随', '满院子']

['两年', '忘记', '冬天', '差事', '交接', '祸不单行', '跟随', '计划', '赴丧', '满堂红']

['两年', '忘了', '冬天', '差事', '交接', '祸不单行', '打算', '跟随', '可以再', '奔丧']

['两年', '忘了', '冬天', '差事', '交接', '祸不单行', '打算', '跟随', '葬礼', '满院子']

['父亲', '看见', '橘子', '铁路', '回来', '茶馆', '终于', '北京', '有一天', '葬礼']

从中可以看出,词位指标影响太大,如果文本开头的词频低,意味着没有与其他词共现的机会,会导致其上下文关系指标不平衡,从而导致整体得分低,重要性异常高。这对长文本的开头提出了要求,如果没有概述类型的描述性文字,第一段的第一个词就会成为整个文本的关键词。另外,对散文也不太适用。

我们来试试更长一点的文本,比如我的毕业论文,从标题中抽取学院、姓名、摘要,显然效果很差,还不如高频词,当然也受到停用词不完善的影响,输出结果如下:

['工程学院', '名称', '概要', '形状', '水盆', '关键', '导航页面', '信号', '形式', '诊断']

['形状', '盆地', '键', '导航页面', '信号', '设置', '表格', '程序', '搜索', '诊断']

['盆地', '关键', '形状', '导航页面', '信号', '形式', '盆地', '搜索', '隔离', '']

['盆地', '形状', '关键', '导航页面', '信号', '查找', '设置', '形式', '隔离', '演变']

['工程学院', '名称', '摘要', '各领域', '范围广泛', '特别重要', '有益于', '指导', '临床', '疾病']

提取词关键工具有哪些_关键词提取工具_提取关键词语专题训练

['工程学院', '名称', '摘要', '各个领域', '范围广泛', '特别重要', '有益于', '临床', '疾病', '外科']

['工程学院', '名称', '摘要', '广泛', '各领域', '特别重要', '有益于', '指导', '临床', '外科']

['工程学院', '名称', '摘要', '广泛', '各领域', '特别重要', '有益于', '临床', '外科', '疾病']

['图像', '分割', '算法', '区域', '阈值', '像素', '级别', '灰度', '实现', '种子']

3. 尝试优化

分析评分表,我们发现 和 影响较大,与之前的推测一致,作为关键词指标,其代表性足够,权重可以保持不变,那么优化方向就是让 和 更加均衡。

首先,将归一化方法改为((10 + x))+1,减少前面单词的影响。

一个单词出现的次数越多关键词提取工具,它与其他单词共现的可能性就越大。词频指标无法拉回过大的值对总分的影响。尝试使用唯一单词的数量作为缩放的分母。

T_Rel = 1 + DL_RL * wc_dic.get(w)/len(uni_lst)  # max(wc_dic.values())

经过进一步的测试,似乎其中6种组合的结果都有所改善,但是使用max-min的2种组合仍然存在问题。

['阈值', '像素', '种子', '级别', '区域', '灰度', '算法', '工具', '分割', '图像']

['阈值', '像素', '种子', '区域', '级别', '灰度', '算法', '分割', '工具', '图像']

['阈值', '像素', '种子', '级别', '区域', '灰度', '算法', '工具', '功能', '分割']

['阈值', '像素', '种子', '区域', '级别', '灰度', '算法', '分割', '工具', '图像']

['阈值', '种子', '像素', '工具', '灰度', '级别', '分水岭', '功能', '医疗', '选择']

['工程学院', '摘要', '名称', '广泛', '各领域', '领导', '临床', '疾病', '外科', '重建']

['阈值', '种子', '功能', '像素', '工具', '级别', '灰度', '分水岭', '医疗', '轮廓']

提取词关键工具有哪些_提取关键词语专题训练_关键词提取工具

['工程学院', '名称', '摘要', '广泛', '各领域', '临床', '领导', '外科', '疾病', '重建']

['图像', '分割', '算法', '区域', '阈值', '像素', '级别', '灰度', '实现', '种子']

4.性能测试

提取 1,000 段文本(平均 300 个单词)需要 13 秒。

df = pd.read_excel('test.xlsx')
start = time()
df['关键词'] = df['内容'].apply(
        lambda x: get_key_words(get_S_t(x, stop=stopwords)))
print(time()-start)

12.777

四、总结

作为练习,作者模仿雅克完成的模型在一定程度上实现了关键词的提取目标,还可以调整参数,测试全文词频的归一化方法、上下文窗口的大小、句子切分标记的选取、补充分母()的指标,优化整体计算。另外,虽然比单纯的高频词提取效果好,但停用词的维护仍然是非常重要的一环。

作者已经上传到pypi了,可以使用pip -cn解包使用,也可以直接查看完整源码,最终可用的参数为:

get_S_t(content, 
        only_cn=False
        stop=None
        pos_type='s'
        median_fn=None
        tf_normal='yake'
        adjust=1
        r_size=10)
# content:原始文本
# only_cn:True 则是纯中文分析,若文本中含英文词汇将被过滤
# stop:停用词列表(集合)
# pos_type:位置指标类型,'s'为按分句,'w'为按分词
# median_fn:可传入位置中值处理函数,例如 lambda x: log2(log2(x+2)),x为 T_pos 中的 median
# tf_normal:全文词频指标归一化方式,'yake'为原版,'mm'为 max-min
# adjust:分母调整值
# r_size:上下文关系指标的窗口大小

get_key_words(df_scores, 
              top=10
              sort_col='s_t'
              ascend=True, p=None)
# df_scores:get_S_t()返回值
# top:提取数量
# sort_col:提取依据列
# ascend:依据列的排序方式
# p:指定单个词性的关键词,如 'a'为形容词、'v'为动词、'n'为名词等

使用案例:

from iyake_cn import get_S_t, get_key_words, get_stopwords

txt = '''
作为练习,笔者模仿 Yake 完成的 iyake_cn 模型在一定程度上实现了
提取关键词的目标,它还可在全文词频归一化方式、上下文关系窗口大
小、句子分割标志选取、补足分母的指标(adjust)等方面进行调参测
试,并在整体计算上优化。此外,虽然 iyake_cn 比单纯的高频词提取
效果要好,但停用词的维护依然是很重要的一环。'''

df = get_S_t(txt,  stop=get_stopwords('mystopwords.txt'))
words = get_key_words(df)
print(words)
words = get_key_words(df, p='v')
print(words)

['做法', '作者', '一环', '模仿', '维护', '雅客', '词', '效果', '典范', '高频词']

['练习', '模仿', '维持', '提取', '分割', '选取', '完成', '参数调整', '计算']

‍☠️宝藏级‍☠️原创公众号《数据》内容超硬核,公众号以其为核心语言,垂直到数据科学领域,包含戳|||||等,从入门到高级!

长按关注 - 资料 - 设为星标,传递有用信息

分享