尊敬的客户,您好!我们是北京一家专注互联网技术服务公司,可以提供收录效果好,文章排名好的网站进行发文,发得多,各种关键词排名就多,流量越多越稳定,如果您有需要欢迎您前来资讯!可以随意添加图文和视频广告,助您的企业或者项目服务实现推广效果!如需合作欢迎请加微信
获得 AI 技术大本营 (ID:) 的许可。
本文共6400字,建议阅读10+分钟。
本文总结了百度筛选出的17篇CVPR论文的内容和应用场景。
CVPR 2019将于6月在美国长滩召开,作为人工智能领域的重要学术会议,CVPR每年都会吸引来自全球顶尖学术机构和公司的研究人员。
据CVPR官网数据显示,今年共提交会议论文超过5165篇,最终录用论文1299篇,录用率约25%。据了解,去年CVPR 2018主会场共收录979篇论文,录用率约为29%。与2018年相比,今年的竞争更加激烈。
今年以来,百度已有17篇论文被CVPR录用,涵盖语义分割、网络剪枝、ReID、GAN等多个方向,多项技术落地场景涉及无人驾驶。
今年1月,我们引进了15篇来自百度的论文,这些论文被AAAI 2019录用。现在让我们来看看百度入选CVPR 2019的17篇论文。
公众号背景回复关键词“百度”获取本文全部论文
1) 看一看 : - 对于
作者: 罗; ;陶冠; 禹;杨毅
简介:在虚拟图像集(源域)上训练的语义分割网络在真实图像集(目标域)上通常表现不佳。网络分割性能的下降是由于两个领域之间的差异较大,以及深度模型缺乏泛化能力。传统方法试图通过对源域和目标域之间的特征分布进行全局对齐来解决这个问题,但这类方法往往忽略了特征之间的局部语义一致性。本文首次将联合训练和对抗训练相结合来应对这一问题。与传统方法不同,该文根据每个特征的语义对齐程度自适应调整特征对齐的强度。该方法解决了传统方法中特征语义不一致和负迁移的问题。实验结果表明,该方法能够大大提高网络对目标域图像的分割精度。
应用场景:自动驾驶。该方法将计算机生成的图像训练的网络直接推广到真实数据集上,大大减少了自动驾驶领域街景数据采集和数据标注的工作量。
地址:
2) 通过深度
作者: Yang He, Ping Liu, Wang, 胡, Yi Yang
导语:本文分析了网络剪枝的“小范数-低重要性”的标准。以前的工作利用“小范数-低重要性”准则在卷积神经网络中修剪具有较小范数值的滤波器,但其有效性取决于两个并不总是得到满足的要求
为了解决这个问题,我们提出了一种新的滤波器剪枝方法,即通过“几何均值”进行滤波器剪枝,以便在不考虑这两个要求的情况下压缩模型,我们称之为FPGM。与前一种方法不同,FPGM 通过删除冗余滤波器来压缩 CNN 模型,而不是删除那些具有小范数的滤波器。我们验证了FPGM在两个数据集上图像分类任务的实用性。在-10数据集上,FPGM在-110上的计算工作量减少了52%以上,相对精度提高了2.69%。此外,在 -2012 数据集上,FPGM 还将 -101 上的计算量减少了 42% 以上。
应用场景:本文提出的方法可以有效提高神经网络的压缩率。压缩网络可以部署到便携式设备上,如手机、摄像机等,以加快处理速度。
地址:
地址:
3) 通过网状
作者:朱浩; 左;王森;曹迅; 阳
简介:本文提出了一种新的框架,可以从单个图像中恢复详细的人体形状。由于人体形状、身体姿势和视角的变化等因素,这是一项具有挑战性的任务。现有方法通常尝试使用缺乏表面细节的基于参数的模板来恢复人体形状。结果,由此产生的身体形状似乎没有衣服。
在本文中,我们提出了一种新颖的基于学习的框架,该框架将参数模型的鲁棒性与自由3D变形的灵活性相结合。我们使用深度神经网络在分层网格变形 (HMD) 框架中使用对身体关节、轮廓和每像素阴影信息的约束来优化 3D 形状。除了皮肤模型外,我们还能够恢复人体的详细形状。实验表明,该方法优于以往最先进的方法,在2D IoU数和3D测量距离方面取得了更好的精度。
地址:

地址:
4)GA-Net:端到端网络
作者:;;;阳; 托
简介:在立体匹配任务中,为了准确估计差异,匹配成本聚合在传统方法和深度神经网络模型中都至关重要。我们提出了两个新的神经网络层来分别捕获局部图像和整个图像的成本相关性。第一个是半全局聚合层,它是半全局匹配的可微近似;第二种是本地 聚合层,它遵循传统的成本过滤策略来细化结构。这两层可以用来代替广泛使用的 3D 卷积层,由于其三次计算/内存复杂性,3D 卷积层的计算成本高昂且占用大量内存。在实验中,我们发现具有两层引导聚合块的网络很容易胜过具有 19 个 3D 卷积层的最先进的 GC-Net。我们还训练了深度引导聚合网络(GA-Net),该网络在场景流数据集和基准测试中比最新方法具有更高的准确性。
地址:
地址:
5) : 用于 Re-
作者: Zhun, Luo, Li, Yi Yang
引言:本文旨在解决行人再识别中的跨数据集问题:利用标记的源数据集和未标记的目标数据集在目标数据集中学习具有良好鲁棒性的模型。主流的研究方法主要减小源域和目标域之间特征分布的差异。然而,这些方法忽略了目标域中的域间变化,这些变化包含影响目标域测试性能的重要因素。
本文综合讨论了目标域中的域间变异,并提出了一种基于三种可能的域内不变性(样本不变性、相机不变性和域不变性)的模型泛化方法。为了实现这种方法,我们在模型训练过程中引入了一个样本记忆模块,用于存储训练过程中目标数据的中间特征。样本记忆模块使我们能够快速计算目标域中局部训练样本与全局样本之间的相似度,并有效地将提出的三个不变性极限添加到模型训练中。实验表明,本文提出的3种不变性质对于提高域适应性能是必不可少的。同时,该方法在3个行人再识别区域的人重识别目标域中的准确率大大超过了现有方法。
应用场景:本文提出的方法可以有效提高行人再识别模型在交叉场景下的泛化能力。这使我们能够在现有注释数据的情况下以无监督方式提高模型在新场景中的性能。
地址:
地址:
6) 用于 A in Four GPU
作者: Dong, Yi Yang
简介:本文旨在解决神经网络搜索算法消耗过多GPU资源的问题。目前,许多神经网络搜索算法需要在小型数据集上消耗数百或数千个 GPU/TPU。为了提高神经网络的搜索效率,我们提出了一种基于梯度的搜索方法,该方法使用可微分网络结构采样器。我们的方法将整个搜索空间表示为有向无环图,其中包含超过一百万个子图,每个子图代表一个网络结构。对于这种有向无环图,我们设计了一个可微分采样器,该采样器使用-技术将离散采样过程转换为可微分采样过程。在训练过程中,通过在集合上验证目标损失函数,对采样器进行优化,使得采样器最终得到性能更好的网络结构。在实验中,我们通过几个小时的搜索,能够在 GPU 上找到一个高性能的网络结构。
应用场景:本文提出的方法可以有效地利用少量的GPU在短时间内搜索鲁棒的网络结构,并且可以在大多数任务中广泛用于搜索更小、更快、更准确的网络模型。
地址:
7)DM-GAN:用于文本到-
作者: Zhu, Pan, Wei Chen, Yi Yang
简介:本文旨在提高基于文本的图像的真实性。目前的方法是生成一个粗略的初始图像,然后对图像进行优化,以产生高分辨率的真实图像。但是,当前大多数方法仍然存在两个问题:
在这项工作中,我们提出了一种动态内存生成对抗网络(DM-GAN)来生成高质量的图像。我们提出了一种动态内存模块来优化粗糙的初始图像,即使初始图像生成不佳,也可以生成高质量的图像。具体地,所述动态内存模块包括一个基于初始图像选择重要文本信息的内存写入门和一个自适应融合图片特征和文本信息的反馈门。我们在 COCO 和 CUB 数据集上评估了我们的模型。实验结果表明,该方法在FID和IS指标以及真实性方面均优于现有方法。
应用场景:文本提出的方法可以显著提高基于文本生成的图片的真实性,可以实现文章自动图片匹配等功能,可以大大降低创作者的图片匹配成本。
地址:
8)用于3D的Sim-Real
作者: Zhu, Zhu, Yi Yang

简介:在室内3D导航中,环境中的机器人根据指令移动到目标点。但是,在物理世界中部署机器人进行导航需要大量的训练数据来学习有效的策略。获取足够的真实世界数据进行机器人训练是昂贵的,因此我们建议通过合成数据渲染环境,然后将策略迁移到真实世界环境。虽然合成环境有利于促进真实世界的导航训练,但真实世界的环境在两个方面与合成环境不同。首先,两种环境的视觉表示存在显著差异。其次,两种环境的房屋规划差异很大。因此,在强化模型中需要调整两类信息,即视觉表示和策略行为。视觉表示和战略行为的学习过程是相互的。
提出视觉表现与战略行为的协同适配,实现环境与策略的交互。具体而言,该方法采用对抗性特征适应模型进行视觉表示迁移,并采用仿真策略进行战略行为模仿。实验结果表明,在不进行任何额外人工注释的情况下,该方法比基础模型高出21.73%。
应用场景:本文提出的视觉特征自适应模型和策略仿真模型,能够有效地将机器人在虚拟环境中学习到的策略和特征迁移到实际场景中,有利于导航机器人、无人车等需要大量数据训练的应用,在复杂场景中真实数据不足的情况下,通过渲染环境获得更好的策略。
地址:
9) 用于
作者: Kang, Lu, Yi Yang, G
简介:无监督域自适应旨在利用标记的源域数据和未标记的目标域数据,对目标域数据获得优异的预测性能。以往的方法在消除域差异的过程中没有充分利用类别信息,导致对齐误差,影响泛化性能。为了解决这些问题,本文提出了一种新的领域差异度量“ ”来表征类内和类间的领域差异,并提出了“ ”来优化该度量。我们设计了一种新的类感知采样方法,通过交替更新来端到端地优化我们的网络。我们在两个标准数据集上取得了比现有方法更好的性能。
应用场景:可以提高单场景训练模型在缺乏标签的新场景下的识别性能,例如使用合成标记数据集识别实际场景中的图像。
地址:
10):用于 3D 汽车
作者:宋,王鹏,周,朱瑞,关,戴,苏浩,李,杨
突出:
落地场景:在自动驾驶领域,基于单幅图像的车辆姿态估计。
地址:
11)UnOS:-flow 和 - by
作者:Yang Wang, Peng Wang, Yang, Luo, Yi Yang, and Wei Xu
亮点:只有通过双目摄像头的视频,通过深度学习,才能学习到双目深度视觉、光流和摄像头姿态。
落地场景:可辅助支持自动驾驶双目视觉模型,从而更好地从激光的离散深度向密集深度进行转换。
地址:
12)查看不止一次:An for text of
作者: , , , En, Han, Ding, Ding
亮点:受限于神经网络感受野的大小约束和简单的文本边界框表达式(如矩形框或四边形),以前的文本检测器在长词和任意形状的文本场景中容易失效。本文提出了一种新的文本检测器框架来解决这两个问题。新的文本检测器框架由三个部分组成:直接回归器 (DR)、迭代改进模块 (IRM) 和文本形状表达式模块 (SEM)。
DR 输出四边形表达式的文本检测候选项;IRM基于四边形对应的特征块,逐步感知并改进完整的四边形文本边界框,以解决长词检测问题。SEM 模块通过返回到完整四边形候选框中文本实例的几何信息,重建了具有对称上下顶点线的更准确的多边形文本表示。IRM 和 SEM 是可学习和可插拔的模块,可以与 DR 一起使用以进行端到端培训。在包括多向、长词、任意曲曲线和多语言场景在内的5个权威公共数据集(-RCTW、SCUT-, -Text和-MLT)上,我们提出的新检测器在纯检测方法(SOTA)下取得了最佳结果。
地址:
13): A 代表
作者: Ming Liu, Ding, Min Xia, Xiao Liu, Ding, Zuo, 温

亮点: 提出了一种图像/视频端到端属性转换方法。提出了对传统方法的两项改进:
落地场景:视频拍摄特效,素材风格生成。
地址:
地址:
14) 对于 -
作者: Feng, Lu, and Ding
导语:近期,一种基于深度学习的显著目标检测方法在全卷积神经网络(FCN)的基础上取得了令人满意的性能。然而,他们中的大多数都遭受了边境挑战。最先进的方法使用特征聚合技术,可以精确定位突出的目标,但它们通常无法分割具有精细边界的整个对象,尤其是那些具有凸起窄条纹的对象。因此,基于FCN的模型还有很大的改进空间。
在本文中,我们设计了注意力反馈模块(AFM)来更好地探索物体的结构。我们还使用边界增强损失 (BEL) 来进一步学习精细边界。我们提出的深度模型在目标边界上取得了令人满意的结果,并在 5 个经过广泛测试的重要目标检测基准上取得了最先进的性能。该网络是完全卷积的,以 26 FPS 的速度运行,不需要任何后处理。
地址:
15)A代表-
作者: Wu, Feng, Guan, Dong Wang, Lu, Ding
导语:尽管深度学习技术近年来在显著性目标检测方面取得了长足的进步,但由于目标内部的复杂性以及卷积和池化操作中步幅长度导致的边界不准确,预测显著性图中仍然存在预测不完整的现象。为了缓解这些问题,我们建议利用显著性目标检测以及前景轮廓检测和边缘检测的监督来训练显著性检测网络。
首先,我们以交错的方式使用显著性目标检测和前景轮廓检测任务来生成具有均匀高光的显著性地图。其次,前景剖面和边缘检测任务同时相互引导,从而实现准确的前景剖面预测,减少边缘预测的局部噪声。此外,我们还开发了一种新颖的相互学习模块(MLM),作为我们方法的构建块。每个MLM都由多个网络分支组成,这些分支以相互学习的方式进行训练,性能大大提高。我们在七个具有挑战性的数据集上的广泛实验表明,我们提出的方法在显著目标检测和边缘检测中都取得了最好的结果。
地址:
16)L3-Net:用于
作者:Lu, Yao 周, Wan, Hou, Song,
亮点:自定位模块是无人车系统的基本模块之一,成熟的L4无人车定位系统需要提供厘米级定位精度的输出结果。百度提出了一种基于学习的点云定位技术,该技术不同于传统的人工设计的复杂算法,它拆解了传统的定位方法,利用深度学习网络替代传统的环节和步骤,在包含多种场景交通条件和大尺度时间跨度的数据集上验证算法效果,达到厘米级的定位精度。该方案是全球首个通过使用直接作用于激光点云的深度学习网络来解决自动驾驶的自定位问题的解决方案。该数据集包括城市道路、公园道路、高速公路等多种具有挑战性的道路场景,数据总里程,即将在百度平台上线。
落地场景:百度无人车
地址:
17) 的
作者: Xie; 周;宋白; ; 王;周 任;艾伦
简介:尽管 CNN 在各种视觉任务上都表现出色,但它们容易受到对抗性示例的影响,这些示例是通过在清晰图像中加入人类不易察觉的扰动来制作的。然而,大多数现有的对抗性攻击在具有挑战性的黑盒设置中只能实现相对较低的成功率,因为攻击者不理解模型结构和参数。为此,我们建议通过创建不同的输入模式来提高对抗性示例的可移植性。我们的方法不是只使用原始图像来生成对抗性样本,而是在每次迭代时对输入图像应用随机变换。
大量实验表明,我们提出的攻击方法生成的对抗样本比现有基线更能迁移到不同的网络。通过评估我们在NIPS 2017对抗性竞赛中对顶级防御解决方案和官方基线的方法,增强攻击的平均成功率达到73.0%,NIPS竞赛中的前1次攻击提交率显著提高了6.6%。我们希望我们提出的攻击策略可以作为一个强有力的基准基线,以评估未来网络对抗的鲁棒性和不同防御方法的有效性。
地址:
地址:
公众号背景回复关键词“百度”获取本文全部论文