北京华网天下

下拉词自助平台【64xl.com最好用的下拉平台】，2023 年国内外各大厂信息检索技术进展与趋势总结

2024-08-15

来源：网络整理

下拉神器是一款专业的下拉词平台，提供各种下拉功能：百度下拉丶360搜索下拉丶必应搜索下拉丶哔哩哔哩下拉丶抖音下拉等等，里面还有批量做词教程技术，可以一次性做10-50个词，省心高效！批量做词，批量出词，可以实现霸屏效果！

有的客户想删除下拉，但是百度不受理，就可以使用批量做词霸屏技术，实现把那些负面信息顶下去，顶掉的效果=删除效果！欢迎您前来使用！新手不懂使用，请多看2遍视频教程哦！下拉神器100%有效果的！

给大家看一个下拉神器介绍的视频，看完后，点击下面的按钮进入”下拉神器“

欢迎使用下拉神器，下拉行业老品牌，如果下拉神器都不好使，整个行业其他平台一样不好使，但是大家一定要多学习多看教程，先学会做词出词的技巧！

下一篇文章内容预览：

2023字节跳动（）信息检索（搜索推广）技术论文集锦

原创王知识

又到了年底了，我们准备对2023年国内外各大厂商的信息检索（搜索、推荐、广告）技术的进展和趋势进行一个总结，作为第一步，我们会系统地整理今年各大厂商的所有信息，并搜索相关论文。

字节跳动 () 信息检索 (搜索推广) 技术论文 2023

：1 GPU 上 CTR 时间从 12 降到 10，AAAI 2023 杰出论文。点击率预测模型训练 GPU 加速，从 12 小时降到 10 分钟。

点击率（CTR）预测任务是预测用户是否会点击推荐商品。由于线上每天产生的海量数据，加快点击率预测模型的训练对于保证模型及时更新、降低训练成本至关重要。一种方法是使用大批量进行训练。然而，正如在计算机视觉和自然语言处理任务中所见，大批量很容易导致准确率下降。我们的实验表明，之前的缩放规则在训练CTR预测神经网络时效果不佳。为了解决这个问题，我们首先从理论上证明，在调整批量大小时，不同的id频率会给超参数缩放带来挑战。为了在大批量设置下稳定训练过程，我们开发了自适应列Clip()。它为提供了一种简单有效的缩放规则，可以保持学习率不变并缩放L2损失。我们在两个真实数据集上对四个CTR预测网络进行了广泛的实验。我们实验并成功地将原始批量大小缩放了128倍，而没有损失准确率。具体来说抖音搜索排名靠前方法，对于在数据集上训练 CTR 预测模型，我们的优化框架将批量大小从 1K 增加到 128K，将 AUC 提高了 0.1% 以上，并将在单个 V100 GPU 上的训练时间从 12 小时减少到 10 分钟。

文章链接：

- ：，和，2023.构建基于语音的对话推荐系统：数据集、潜在解决方案和前景。

对话式推荐系统（CRS）具有通过交互式对话获取用户偏好并揭示推荐背后原因的天然优势，成为RS领域一个至关重要的新兴研究课题。然而，目前大多数CRS都是基于文本的，这不太方便用户使用，可能会对某些用户造成挑战，例如有视力障碍或写作和阅读能力有限的用户。因此，本文首次探讨了基于语音的客户关系系统（VCRS）以自然、直观、方便和无障碍的方式彻底改变用户与RS交互方式的潜力。通过详尽的文献综述，我们发现在电子商务和电影领域缺乏VCRS基准数据集。为了支持这样的研究，我们创建了两个VCRS基准数据集。具体来说，我们首先通过经验验证创建这样一个数据集的好处和必要性。然后我们通过驱动提示将用户-项目交互转化为基于文本的对话，生成多样化的自然模板抖音搜索排名靠前方法，然后通过文本到语音模型合成相应的音频。同时，我们还精心设计了一系列策略，以确保语音对话的自然性和高质量。在此基础上，我们进一步探索潜在的解决方案，并指出了通过无缝提取和集成语音输入来构建端到端 VCRS 的可能方向，从而提供性能增强、可自我解释和用户友好的 VCRS。该研究旨在为新兴的 VCRS 领域奠定基础，并进一步推动开创性研究。这符合可解释人工智能和社会公益人工智能的原则，即利用技术的潜力创造一个公平、可持续和公正的世界。我们的代码和数据集可在 ( ) 获得。

文章链接：

在 Loop 中下拉词自助平台【64xl.com最好用的下拉平台】，2023 年国内外各大厂信息检索技术进展与趋势总结，2023 年。纠正推荐反馈循环中的不公平现象。

抖音搜索是怎么排名的_抖音搜索排名靠前方法_抖音搜索怎么能排第一

由于机器学习模型可能存在偏见，推荐系统的公平性近来成为学术界和工业界日益关注的问题。其中一种偏见是反馈循环中的偏见，从不公平的在线系统收集数据会妨碍对用户和项目之间相关性分数的准确评估。鉴于推荐系统通常推荐受欢迎的内容和供应商，用户和项目之间的潜在相关性分数可能无法准确反映在训练数据中。反馈循环中，用户不再根据其真实的相关性分数获得推荐，而是根据有偏见的训练数据获得推荐。为了解决反馈循环问题，我们提出了一个两阶段表示学习框架B-FAIR，旨在纠正推荐数据中的偏见。该框架使用变分自动编码器将上下文数据分解为敏感部分和非敏感部分，然后在训练推荐模型时应用一种新颖的平衡公平目标（BFO）来消除由有偏见的历史数据引起的不公平数据中的偏见。 B-FAIR 的有效性通过在合成和真实基准上的实验得到证明，其中 B-FAIR 与最先进的算法相比实现了更高的性能。

文章链接：

：从到，2023年。从灵活的奖励中学习时态语言对齐。

时间语言定位（TLG）任务被定义为给定用户提供的文本句子，在未修改的视频中寻找语义相关的视频时刻或片段的过程。近年来，基于定位的 TLG 方法已被探索。强化学习用于定位视频片段。然而，这些方法不够稳定，因为强化学习的随机探索机制对奖励很敏感。因此，提供更灵活、更合理的奖励已成为学术界和工业界关注的重点。

受训练过程的启发，我们创新性地采用视觉语言预训练 (VLP) 模型作为奖励模型，以提供灵活的奖励并帮助基于定位的 TLG 任务收敛。具体来说，我们引入了基于强化学习模块的定位，以预测多模态场景中的开始和结束时间戳。然后，我们基于 VLP 模型微调奖励模型，甚至引入一些人工反馈，为定位模块提供灵活的奖励分数。可以捕捉未修剪视频的细微差异。在两个数据集上进行的大量实验充分验证了我们提出的解决方案的有效性。

文章链接：

FiD-:and-Text，2023.高效且有效的检索增强文本生成。

检索增强生成模型与独立语言模型相比具有许多优势：除了对给定查询的文本答案之外，它们还提供从可更新知识库中检索到的源项。但是，它们也是更复杂的系统，需要处理长输入。在这项工作中，我们引入了 FiD-，以显着提高最先进的检索增强 FiD 模型的效率，同时保持相同的有效性水平。我们的 FiD- 模型限制了我们还改进了从源文本到解码器的信息流（使用连接编码表示）。此外，我们还使 FiD- 能够通过文本源指针对文本进行重新排序，以提高顶级源的准确性。在 KILT 任务上的实验表明，FiD- 可以持续改善查询延迟和效率之间的帕累托边际。在用于全面评估文本生成和出处检索的六个 KILT 任务中，具有源指向的 FiD- 表现优于在保持高效率的同时，取得了新的领先成果。

文章链接：

MAMO：细粒度的视觉语言表示，2023 年。使用掩蔽多模态建模学习细粒度的视觉语言表示。

多模态表示学习在各类视觉-语言任务（如图文检索、视觉问答等）取得了可喜的进展，极大地推动了多媒体信息系统的发展。现有的大多数方法擅长在视觉图像与语言之间建立全局对齐，但缺乏有效的细粒度图文交互。本文提出一种联合掩蔽多模态建模方法来学习细粒度的多模态表示。我们的方法对图文输入进行联合掩蔽，并整合隐式和显式目标来恢复掩蔽信号。隐式目标为视觉和语言提供了统一且有区别的目标，模型预测未掩蔽输入的潜在多态性。显式目标通过恢复高级和语义信息进一步丰富了多模态表示：图像块的动量视觉特征和词块的概念。通过这种遮挡建模过程，我们的模型不仅可以学习细粒度的多模态交互，还可以避免高级表示与中低级预测目标（例如，图像像素，离散视觉标签）之间的语义鸿沟，从而产生语义丰富的多模态表示，这些表示在零样本和微调设置中都具有出色的性能。我们的预训练模型（名为 MAMO）在各种下游视觉语言任务上实现了最先进的性能，包括图像文本检索、视觉问答、视觉推理和弱监督视觉接地。

文章链接：

带有- 自动竞价中的广告费率，WWW 2023。在自动竞价世界中使用优惠券转化率的广告拍卖设计。

抖音搜索怎么能排第一_抖音搜索是怎么排名的_抖音搜索排名靠前方法

在线广告已经成为互联网收入的主要来源。在经典的拍卖理论中，只有拍卖师（即平台）和买家（即广告主）参与，而广告受众则被忽略。然而，对于电商广告来说，平台可以向广告受众提供优惠券，促使他们以更低的价格（例如，比原价便宜2美元）购买更多的产品。这种促销可以增加购买量和购买价值。在本文中，我们联合设计并提出了一种考虑广告受众的拍卖机制，称为CFA-（-For-the--）。我们证明了节奏均衡的存在，并表明CFA-满足IC（激励兼容性）和IR（个体理性）约束。然后我们研究了CFA拍卖的最优性，并表明它可以保持最优近似最后，在离线数据集和在线A/B测试上的实验评估结果证明了CFA-的有效性

文章链接：

- - KDD 2023 的数据。基于图的推荐系统模型诊断数据采样。

数据子采样被广泛用于加速大规模推荐系统的训练。大多数子采样方法都是基于模型的，通常需要预先训练的先导模型来通过样本硬度等来衡量数据的重要性。然而，当先导模型被错误指定时，基于模型的子采样方法会恶化。由于模型错误指定是现实推荐系统中的一个长期存在的问题，我们提出了一种与模型无关的数据子采样方法，该方法仅探索由图表示的输入数据的结构。具体而言，我们研究用户-项目图的拓扑结构，通过图传播估计每个用户-项目交互（用户-项目图中的一条边）的重要性，然后使用网络传播步骤来平滑估计的重要性值。由于我们提出的方法是与模型无关的，因此我们可以结合与模型无关的方法和基于模型的子采样方法的优势。实证结果表明，在所使用的数据集上，结合两种方法的结果比任何单一方法都要好。在 ML 和 MIND 数据集上的实验结果表明，我们提出的方法与基线方法相比取得了更好的结果。

文章链接：

对于，，KDD 2023。带有持续时间校正的反事实视频推荐。

时长偏差在视频推荐中很常见，即模型倾向于推荐播放率高的短视频，因此可能无法捕捉到用户的真实兴趣。本文我们从数据和模型两个方面消除时长偏差。首先，基于大量数据分析后我们发现，相同长度的视频的完播率呈现双峰分布。因此我们建议进行阈值划分并构建二元标签作为训练标签，以缓解完播标签过于偏向短视频的弊端。我们利用因果推理的方法，通过因果图来检验视频推荐的因果关系。我们发现时长对预测有两种影响：直接影响和间接影响。时长偏差是直接影响，而间接影响则有利于预测。我们设计了一个与模型无关的“降低时长偏差的反事实视频推荐”框架，结合多任务学习来估计训练过程中不同的因果效应。在推理阶段，我们进行反事实推理，在两个工业数据集上进行实验，发现除了在传统的top-k推荐指标上取得非常好的效果外，还提升了用户的观看时长。

文章链接：

DNet：用于，KDD 2023。用于分布式个性化处理的分布式网络。

人们越来越有兴趣开发用于估计各种实际应用（例如电子商务和公共卫生）中个性化治疗效果 (ITE) 的方法。在本文中，我们介绍了一种用于推断分布式 ITE 的新型架构，称为 DNet。DNet 可以学习每种治疗的整个结果分布，而大多数现有方法主要关注条件平均治疗效果，而忽略其预期值周围的条件方差。此外，我们的方法在具有重尾结果的环境中表现良好。在基准和真实数据集的大量实验中，我们的方法表现优于最先进的方法。DNet 还成功部署在广泛使用的移动应用程序中，每天有数百万活跃用户。

所有在真实数据集上引入的基于 DNet 的模型均已成功部署在一款广泛使用的、拥有数百万日活跃用户的移动应用的生产中。我们解决了相应的优化问题，并在每个应用中获得了最佳策略。部署决策基于为期两周的线上 A/B 测试，结果表明新策略能够为关键业务指标带来统计上显著的改善。在付费广告示例中，基于 DNet 框架的最佳策略能够为广告主带来显著的 2.8% 的增量收入，而不会对用户体验产生负面影响，这一点可以从应用的平均使用天数和用户在应用中停留的时间上看出。在搜索示例中，ZI-DNet 能够将搜索次数提高 13% 以上。此外，货币化部门还采用了 DNet 模型来改善用户体验，结果用户活跃度显著提升了 0.1%，而广告商业价值的损失却微乎其微。

文章

抖音搜索怎么能排第一_抖音搜索是怎么排名的_抖音搜索排名靠前方法

：实时，2022 年。Rock：用于实时推荐系统的无碰撞嵌入。

构建可扩展的实时推荐系统对于很多由时间敏感的客户反馈驱动的业务来说至关重要，比如短视频排名或在线广告。尽管CNN、CNN等生产规模的深度学习框架已经被广泛采用，但是这些通用框架由于多种原因依然无法满足推荐场景下的业务需求：一方面，基于静态参数和密集计算来调整系统以实现具有动态和稀疏特征的推荐不利于提高模型质量；另一方面，这些框架在设计上将批量训练阶段与服务阶段完全分离，这使得模型无法实时与客户反馈进行交互。这些问题促使我们重新审视传统方法，探索完全不同的设计方案，在本文中，我们介绍了一个专为在线模型训练而设计的定制系统。我们的设计基于对应用程序工作负载和生产环境的观察，与其他推荐系统有显著不同。我们的贡献是多方面的：首先，我们精心设计了一个无碰撞的嵌入表并执行首先，我们提出了诸如理想嵌入和频率过滤之类的优化以减少其内存占用；其次，我们提供了具有高容错能力的生产就绪的在线训练架构；最后，我们证明该系统可用于实时学习。成功登录推荐产品。

文章链接：

：FPGA——，OSDI 2022。基于嵌入式FPGA的加速检索系统。

基于嵌入的检索 (EBR) 广泛应用于推荐系统，用于从包含数百万或更多项目的大型语料库中检索数万个相关候选项目。一个好的 EBR 系统需要同时实现高吞吐量和低延迟。因为高吞吐量通常意味着节省成本，而低延迟可以改善用户体验。不幸的是，由于其固有的架构限制，现有的基于 CPU 和 GPU 的 EBR 的性能远未达到最佳水平。

本文首先研究了理想和实际的 EBR 系统是如何工作的，然后设计了一个 FPGA 加速的 EBR，以达到实际理想 EBR 系统的最佳性能。它由三个关键部分组成：它使用高带宽 HBM 进行内存带宽密集型语料库扫描、使用数据并行方法进行相似度计算以及基于流水线的方法进行 K 选择。为了进一步减少硬件资源，引入了一个过滤器来丢弃非 Top- K。实验表明，与基于 GPU 的 EBR 相比，在延迟目标为 10 毫秒的情况下，使用相同的内存带宽降级仍然可以实现 1.21 倍至 12.27 倍的更低延迟和高达 4.29 倍的更高吞吐量。

文章链接：

IPS：针对ICDE 2021，统一画像管理，实现无处不在的在线推荐。

字节跳动拥有、今日头条、抖音等多款热门产品，用于创作、分享和发现各种内容，其中推荐在帮助数十亿用户与高度个性化的内容互动方面发挥着关键作用。产品的个性化体验很大程度上来自于复杂的机器学习模型根据用户兴趣做出准确预测的能力，而用户画像服务是此类系统的一个关键组件。在上一篇文章中，我们介绍了实例画像服务（IPS），这是一个用于管理非结构化画像数据并为字节跳动的各种特征计算提供服务的大型分布式系统。IPS的使用方式不同，在复杂的计算逻辑和延迟要求方面对系统的要求也不同。设计大规模用户画像系统的主要挑战是如何平衡效率、可扩展性、可靠性和通用性。通过精心的设计和实现选择，我们已经证明IPS可以为所有这些产品提供简单灵活的解决方案，同时满足高可用性和高性能的目标。许多传统文件系统配置并运行在数千台机器上。我们最大的生产实例之一每秒处理数亿个功能查询和数千万次写入。

文章链接：

端到端的检索结构，CIKM 2021。学习用于大规模推荐的端到端检索结构。

大规模推荐的核心问题之一是准确高效地检索相关的顶级候选，最好是在亚线性时间内。大多数以前的方法都基于两步过程：首先学习内积模型，然后使用某种近似最近邻（ANN）搜索算法来找到顶级候选。在本文中，我们提出了深度检索（DR），它直接使用用户-项目交互数据（例如点击）来学习可搜索的结构，而不依赖于ANN算法中的欧几里得函数。DR的结构将所有候选项目编码到离散的潜在空间中。这些候选的潜在编码是模型参数，与其他神经网络参数一起学习以最大化相同的目标函数。基于该模型，我们可以对结构进行集束搜索以检索排名靠前的候选以进行重新排名。根据经验，我们首先证明DR的计算复杂度是亚线性的，并且可以在两个公共数据集上实现相同的性能。蛮力基线具有几乎相同的准确性。此外，我们表明，在实时生产推荐系统中，部署的 DR 方法在参与度指标方面明显优于经过良好调整的 ANN 基线。据我们所知，DR 是首批成功部署在工业推荐系统中的非 ANN 算法之一，其规模达到数亿个项目。

文章链接：

预览期间标签不可点击

微信扫一扫

下拉资讯

阅读原文

下一篇：在哪个网站发帖效果比较好【能收录，欢迎合作来发】百度秒收的网站

上一篇：百度收录率高的发帖网站有哪些【高权重收录好/进来】个人发布信息的免费平台