北京华网天下

抖音PC下拉★64xl.com超级下拉平台，百度关键词准吗

2024-08-19

来源：网络整理

下拉神器是一款专业的下拉词平台，提供各种下拉功能：百度下拉丶360搜索下拉丶必应搜索下拉丶哔哩哔哩下拉丶抖音下拉等等，里面还有批量做词教程技术，可以一次性做10-50个词，省心高效！批量做词，批量出词，可以实现霸屏效果！

有的客户想删除下拉，但是百度不受理，就可以使用批量做词霸屏技术，实现把那些负面信息顶下去，顶掉的效果=删除效果！欢迎您前来使用！新手不懂使用，请多看2遍视频教程哦！下拉神器100%有效果的！

给大家看一个下拉神器介绍的视频，看完后，点击下面的按钮进入”下拉神器“

欢迎使用下拉神器，下拉行业老品牌，如果下拉神器都不好使，整个行业其他平台一样不好使，但是大家一定要多学习多看教程，先学会做词出词的技巧！

下一篇文章内容预览：

进入2023年以来，AIGC技术催生了人工智能新一轮浪潮。作为大模型最受瞩目的应用领域之一，AI绘画近年来也取得了重大突破。AI绘画系统可以根据用户输入或提示生成各种风格的图像，为艺术家、设计师、创作者提供了强大的工具，也为数字创意领域带来了新的可能性。在本期《极客见面会》对话节目中，余哲与百度搜索首席架构师就图像生成技术进行了深入探讨，包括百度搜索的应用场景、相关技术的思考、在搜索业务场景中的应用经验等。

亮点：

文盛图的技术发展历程

余哲：AIGC从去年9月份到现在，我们可以看到各种模型和公司不断涌现。从最开始用来生成简单的图片，到后来用一些其他的方法进行生成式图片编辑，后来甚至支持用自然语言来修改图片。我觉得除了之前看到的AIGC在生成文字方面的成果之外，还有更多有趣的应用领域。除了生成图片，它还可以生成视频、音频，最近也看到了一些很惊艳的生成视频产品。今天我想请老师给大家介绍一下，文字图片技术整体的发展趋势是怎么样的。

：2022年可以算是文胜图的元年，整体上分为以、为代表的开源流派和以、Dall-E3为代表的闭源模式。之所以说今年是元年，是因为。目标主要是打造山水场景。山水场景是容错率比较高的场景，加上视觉冲击力十足的色彩和极具艺术感的质感。这是2021年底到2022年初的一个非常大胆、非常惊艳的尝试。

直到2022年2月，v1才发布。v1整体效果比较惊喜，但在生成人像方面还是差强人意。直到同年7月中旬，v3才能够正常生成一些常规人像。8月，作品《太空歌剧》由v3生成，并加入后期处理后引起轰动。

- 1.5版本也同时开源，这是一个里程碑，因为从此以后，更多像C站这样的用户开始涌入去中心化模型与优化领域。随着开源技术的发展，整个生态包括下游应用都出现了爆发式的增长和涌现。之后，技术的进步和下游应用的发展不断互相促进。

百度文胜图的探索与成果

余哲：我大致记得一开始效果并不是很好。比如在尝试生成肖像时，就出现了很多扭曲的结果，比如一个人有三条腿或者有多个眼睛。随着时间的推移，这项技术逐渐变得更加逼真。与此同时，类似的AI技术也出现了，可以让人根据图像创作出各种场景，比如当时很火的《原神》系列。这种生成式图像技术的发展催生了各种各样的应用。比如在卡牌类游戏中，原画师可以利用这种技术创作游戏组件。在百度搜索这样的国民级应用中，文胜图片是如何与场景结合的？一开始我的理解可能是在搜索框里，用户输入关键词后就能找到相关图片，但我相信你们还会有更多不一样的创新。

：早期百度在AIGC图片生成方面也做过一些尝试。就像我们刚刚讲到的，文字图片技术从最初不够可用的结果逐渐变得可用，能够释放想象力每个人百度搜索内容一样吗，带来震撼的视觉冲击。对于搜索来说，以前用户是通过文字去搜索一张图片。比如一只猫咪戴着墨镜和帽子，做出愤怒的手势，用户在脑海中想象的画面，通常只能在全网搜索到已经创造出来、可感知的内容。但对于一些更具体的场景，比如一只猫咪做出愤怒的手势，穿着特别的衣服，如果全网没有人创造出这样的图片，那么用户需求的满足就会受到限制，导致需求退化为寻找一只愤怒的猫咪。之后就会变成浏览需求，查看全网是否有类似的愤怒的猫咪来满足自己的需求。

但随着生成式技术的快速发展，我们现在能够将用户脑海中的图像以具体的方式呈现出来，满足用户的需求。我们将用户的搜索需求转化为搜索图片和生成图片的结合，满足用户更具体的需求，这也在一定程度上鼓励用户更主动地表达自己的真实需求。在产品方面，用户可以通过百度的App搜索“画一只愤怒的猫”或者“画一幅画”，然后进入文生图的相关功能页面，大家可以亲自体验一下。

找图是搜索的第一步。在图像领域，很多创作者首先需要找到一张符合自己需求的图片，然后可能需要用这张图片作为头像，或者作为创作素材，或者用在自己的作品中。因此在生成过程中，我们在加入编辑工作，比如修复（）和扩展（）。比如图片中有一只戴着帽子的猫，通过自然语言交互，我们可以把猫换成狗，从而增加图片的复用能力。在这背后，通常有一个基于文生图片的预训练大模型，用于图片编辑。整体来说，从最初的搜索图片，变成了“找图”加“生成图”的过程，然后进入到第二阶段，也就是图片的目的，满足用户在图像领域的需求。

百度搜索内容别人知道吗_百度搜索的内容_每个人百度搜索内容一样吗

《问声图》的实践与挑战

余哲：这听起来是一个非常有意思的应用场景，因为很多时候，比如我以前做 PPT 的时候，需要找到一些能够满足自己想象的图片，比如客户使用产品的场景，或者某个行业的照片。但是我又不想侵犯版权，又不想避免各种图片来源的纠纷。在这种情况下每个人百度搜索内容一样吗，能够找到图片并对其进行修改、填充边框，甚至基于其进行图像超分辨率处理，其实是一个非常实际的应用场景。

外界可能认为我们只支持一些基本的图像生成和编辑功能，比如生成、简单编辑、边框扩展、高分辨率图像补全等。但其实据我了解，这项技术在中文语境下还是相当有挑战性的。特别是针对中国文化和语义场景，大多数模型通常是在以英文为基础的语境下训练的，其原始语料也以英文为主。然而，百度作为中文搜索引擎领域的巨头，需要处理中英文，甚至一些方言，它是如何应对这一挑战的？

：百度作为最大的中文搜索引擎，在中文理解方面有较强的优势，包括对中文特有元素、中文习语、方言的理解。而为了让模型能够更好地理解中文，准备和清洗与中文语义相关的语料显然是不可或缺的步骤。

在搜索领域，我们拥有全网最全中文语料的感知能力，这是天然的优势。但除此之外，我们还需要对样本进行清洗，覆盖更全面的知识，获取更多样化的优质样本，才能更好地理解整体模型的语义。同时，如果希望模型生成的图片质量更高，还需要考虑画质、审美等因素，比如图片中物体的明显特征、审美风格的准确呈现，此外还需要去重处理，这些都需要基础算子能力的支撑。

所以对于清洗来说，底层基础算子的构建也是非常重要的工作。百度在基础图像表征体系上积累了多年的经验，所以我们可以根据采集数据的优势，按照模型的不同目标，快速的整理和筛选样本。比如我们想要更好的语义样本，我们需要对样本进行均衡，积累不同质量、美感程度的样本，包括一些人像或者特殊的IP概念，我们快速学习这些样本，然后应用到模型中。

余哲：对于大型的生成图像模型，一方面在训练过程中，我们需要准备好高质量的数据集，打下良好的基础。另一方面，用户在使用时可能会提供各种复杂的描述。比如描述一个杯子，用户可能会添加很多形容词，比如高大的、透明的、蓝色的、里面有一只蟋蟀等等。这些描述可能超出了标准模型支持的长度。特别是在中文语境下，用户的描述可能会更长，像你刚才提到的，一只戴着帽子的猫、站在山顶上、吹着西北风、雪花落在后面。这样的话，处理带有大量描述性词语和形容词的图像是不是一个挑战？

：这个问题问得很好，图文配对的质量很重要，目前大家主要关注的是开源的-5b，一个50亿样本的英文模型，这个模型主要基于英文数据集，中文数据比较少。同时从这个数据集中我们也观察到很多不相关的图文配对的问题，可能是因为一些杂质导致的。所以我们需要用相关性建模算法把这些不相关的图文配对过滤掉。

对于中文数据集，比如-5b，有一种更快的方法，就是从英文翻译成中文。但是这种方法可能会引入很多语言歧义，尤其是中英文之间的表达歧义，以及一些中文独有的语义。比如，如果我们将“”翻译成中文，它可能会变成“”，如果它指的是头像抖音PC下拉★64xl.com超级下拉平台，百度关键词准吗，对应的英文可能是“”。这些情况都是由于中文语料建设不足导致的中文理解能力不足。关于前文提到的图文对的相关度质量问题，过滤低质量的图文对需要使用类似于常规方法测量图像和文本的相关度。

另外一个方向是构建高质量的数据集。毕竟一张图片可以用几百个字来非常详细地描述，而互联网上具有如此详细描述的数据相对较少。目前互联网上的描述通常都比较简短，可能只包含几十个标签，甚至更短。因此在构建高质量数据集方面，需要结合一些高质量的图片，配合文字描述的力度和视角，对文字描述进行补充。通常人们可能会描述图片的主题和意境，但可能会忽略图片中的背景、物体的数量以及基本实体的描述。因此，如何实现图像与文字的对齐和理解，对于文本地图的构建非常重要。

所以对于提供高质量样本的问题，可能需要更适合图像生成任务的模型，比如生成模型。百度在这方面积累了一些经验，所以对于去除低质量样本，构建高价值样本，这些都是图文对齐的必要能力。

图像美学评价

百度搜索的内容_每个人百度搜索内容一样吗_百度搜索内容别人知道吗

余哲：确实跟我想象的相比，这个处理的复杂度要高很多。你刚才提到的去除低质量，保留高质量，这个很重要。你提到的低值和高值指的是图像质量吧？在生成图像的时候，如果要生成一只猫，首先它必须是一只猫，其次它要符合审美，要符合猫的形态，要符合狗的形态，而审美是一个非常主观的东西。比如说，就算是一只猫，有的人喜欢圆圆的、胖胖的、毛茸茸的，觉得像个球最好，但有的人觉得猫就应该像猫，应该有猫的特征，有头就是头，有腿就是腿，有脖子就是脖子。那么，对于猫应该是什么样子这个问题，百度是怎么处理的呢？

：刚才也说了，审美是一个比较主观的感受，其实对于不同的人来说也是不一样的，每个人对于美的感受可能都不一样，但是这里我们其实是希望通过大多数人的审美认知来提出一些关于审美的定义。

比如，美学的定义通常包括画面的构图，整个画面的结构是怎样的，色彩的应用，比如饱和度、对比度、整体配色，还有光感，比如摄影棚里的灯光设置，如何针对不同的场景营造出更好更合适的光感。除了视觉色彩的定义，画面的内容也能体现美学，比如画面内容的丰富性或者画面的叙事性，这些都是由画面内部的内容构成的。因此，这些维度形成了一个更普适的美学标准。

我们遵循这些审美标准，进而构建自己的审美认知。无论是在整体的模型搭建还是算法优化方面，我们都遵循这些先进的标准进行相关的指导和评价。除了美观之外，图片的清晰度也会影响整体的质感。同时，内容的一致性也很重要。如果你看到一只三条腿的猫，内容实体的不一致就会导致缺陷，从而间接影响图片的可用性和美观度。

宇哲：您刚才提到了内容一致性，能详细解释一下这个概念吗？

：内容一致性可以粗略理解为内容的质量或者可用性。比如你画了一只手，而这只手变形了或者扭曲了，其实它并不符合我们通常对于手的概念。这就会导致手这个实体不一致，所以可以认为它存在质量问题。

文盛图提示项目

余哲：不同的场景和用途，审美要求也不同。比如一只戴帽子、墨镜的猫，用户可能想生成不同风格的漫画，比如日漫、美漫，视觉体验有明显差异。美漫通常色彩鲜艳，轮廓清晰，日漫则以黑白为主，视觉冲击力强。在保证内容一致性的要求下，百度如何获取不同风格用户的相关信息，以支持不同风格的生成？

：我们先来看看目前文本生成图片的应用场景。目前主流的交互中，通常会提供一些定义明确的具体风格选项，比如漫画风格或者水彩风格。但对于用户来说，不应该有太多的限制。比如用户需要生成一只赛博朋克风格的猫，用卡通风格来画就不符合用户的需求。也就是说，用户不仅可以描述生成的图片中出现的内容，比如一只猫，还可以描述自己期望的图片风格。因此，百度搜索需要在内容和风格上满足用户多样化的需求。

在百度搜索中，我们目前支持上千种不同的图片风格定义。例如，用户可以将猫呈现为水墨画或漫画，也可以将其呈现为铝制品或雕塑，甚至可以呈现为不同的材质。此外，用户还可以选择不同的视角，例如运动模糊、延时摄影或鱼眼和广角视角。我们涵盖了各种不同的风格和类别，因此如果用户有更具体的风格要求，他们只需在搜索中包含相关风格，即可获得符合他们期望且具有相应风格的图片。

宇哲：我还有一个问题，关于风格的叠加，这个支持吗？比如鱼眼广角和水墨风格可以同时应用到一张图片上吗？因为一个是画风，一个是透视。如果要把水墨和卡通风格结合起来，这个也支持吗？

百度搜索的内容_百度搜索内容别人知道吗_每个人百度搜索内容一样吗

：在模型方面，支持多种风格是可行的，可以激发新的风格创意。但我们面临的另一个问题是，如何在保持内容一致性的同时，有效地整合和协调多种风格。由于不同风格之间的差异可能很大，可能会出现一些相互制约的情况，但这确实为用户提供了更多的实验和探索机会，他们可以通过尝试不同的风格组合来实现更广泛的创作空间。

宇哲：如果我有多个关键词来描述主题，那么图片最终呈现出来的效果会不会跟关键词的位置有密切的关系？比如说，水墨卡通风格的猫跟卡通水墨风格的猫呈现出来的效果会不会一样？

：这个其实就涉及到刚才说的可控性，最基础的就像刚才说的猫一样，跟我们如何控制生成的内容有关，特别是在风格方面。其实可控性跟我们整体的做法有关，因为不同的做法会导致不同的结果。有的人可能会提供简短的提示，也许是并行输入两种不同的风格，而有的人可能更喜欢更详细的表达，比如他们可能想描述一个场景的画面，指定特定的风格，或者强调某种风格在生成中的占比。这些都是不同的方式，能够影响内容生成的方式。

至于这种可控性，其实在顺序上是有一些偏差的，比如炼金术里面就提到了一些事情，比如怎么写，是放在前面还是放在后面比较好。其实本质上是一种控制能力，理想情况下不应该有这种偏差，当然最理想的情况是，我们能够引导用户更加准确地表达出自己心中的画面。

余哲：刚才您提到百度支持上千种风格，我想问一下，这上千种风格是人工整理出来的，还是模型聚类后自动生成的？对于用户来说，一开始知道有这么多风格可以选择，可能觉得有点太多，有点难以选择。

：关于风格，基于我们之前提到的，我们对整个网络的内容有非常广阔的感知，所以我们能够感知到整个网络上存在的各种风格数据。第二点，我们还依赖于对图像相关信息的理解。不管是聚合算法，还是风格美学的描述，我们都需要先有数据，然后通过数据的筛选和识别能力，才能将这些风格自然地呈现出来。这就是定义风格的方式。

另外，前面也提到了，比如说我们目前支持几千种风格。对于用户来说，其实大家可能还是会有一个认知的过程，因为每一种风格对于有艺术细胞的用户来说可能还是一个很大的惊喜。比如说我们看到某个风格跟我们平时看到的图片有很大的不同，而且也有很强的视觉冲击力。那么我们如何能够更好的把这些现有的风格传达给用户，让用户理解这个风格，并且能够在后续的创作中运用这些风格去满足这些需求呢？这其实是一个需要整体产品和技术去引导的工作。

余哲：就像您刚才提到的，艺术风格有成千上万种，即使是非专业的以及一些专业的美术生，通常也只了解一两种风格，比如素描或者水墨画。其实很少有人能够深刻理解这么多不同的风格，并且写出好的提示词。那么，当用户对如何写提示词不太了解时，我们该怎么办呢？比如用户第一次使用百度时，除非有人告诉他们，否则他们可能不知道支持几千种风格。这种情况下，我们应该如何处理，引导他们多了解百度的各种风格以及其他可以写的提示词？

：对于艺术风格和创意，人们更多接触到的关键词是“”，可以以此为例，讲述从无到有激发想象力的过程。在早期的运营推广中，有些资源并没有过多的优化提示词，通常提供一些比较简单的提示词，比如“狗”。但这是建立在社区基础上的，让所有用户都可以参与。有些用户尝试改变自己的提示词，描述一只毛茸茸的狗，而其他用户可能更喜欢科幻题材，比如一只带激光眼的狗是什么样子的。通过不断的尝试，他们会发现在不同的提示词下，可以获得更迷人或更有趣的效果。这就导致了互相学习，观察别人是如何生成内容的，如何设置提示词，会产生什么样的效果。因此，提示词的优化逐渐流行起来。这个问题对于整个行业来说都是类似的，包括百度搜索和文胜图。

对于一般用户来说，他们可能接触过文生图的场景比较少，对于初次使用的用户来说，他们通常只是尝试画一只猫或者一只小狗，这就带来了一个问题：在用户的使用环境比较简单的情况下，如何为他们生成更好的效果。

这涉及到扩展或者重写。这里面就涉及到两种思路，一种是扩展图片的内容，类似于内容的丰富度或者故事感。比如刚才讲的戴帽子的狗狗，做出生气的手势，让图片更加具象化。其实这是一个优化做的工作。风格也是可以扩展的，我们可以感知到在这个内容下，大多数人比较喜欢哪些风格，我们可以借此去扩展更多的风格。经过刚才讲的内容和一些扩展风格的多样性之后，内容的丰富度，故事性，以及图片的风格美感都可以得到很大的优化。所以这涉及到如何通过优化，把一个简单的表情输入，变成一个对模型比较有效的集合。

宇哲：还有一个更具体的问题要讨论，这涉及到重写。比如当我们把一个提示从描述一只狗改成一只戴着帽子的愤怒的手势狗时，用户其实看不到重写的内容。我们能保证每次重写的内容都一样吗，还是每次重写的内容可能都略有不同？比如第一次可能是一只戴着帽子的狗，第二次可能是一只戴着眼镜躺在沙滩上的狗。这个过程是随机的，还是每次都是固定的？

：对于重写来说，我们其实是希望能够给到用户更加多样化、更加丰富的结果。因为如果是狗的话，我们可以想象主体是狗，可能会有不同品种的狗，但是狗可能会穿着不同的衣服出现在不同的场景中。这样对于更多人来说就会有更加多样化的结果，大家也会有更多的期待。所以在模型层面，我们希望通过这次的重写和优化，能够有更加多样化的替代方案，然后根据用户实际的反馈，去感知用户会对哪些风格、哪些类型的内容场景感兴趣。后验的反馈会比较高，对整体的重写模型也会有数据上的推动作用。

阅读原文

下一篇：在哪个网站发帖影响大★可以收录，欢迎进合作，全网自媒体平台大全

上一篇：收录高的网站★收录快，欢迎合作发帖，发帖百度可以收录的