名画识别功能上线,解读背后小知识,提升艺术认知

2024-09-24
来源:网络整理

介绍

名画是生活中最常见的艺术品,是人类艺术最珍贵的文化遗产,更是展现大家艺术认知的重要媒介。日常生活中很多常见的名画我们都不认识,为了分享名画背后的故事、名画故事,解读名画背后的小知识,增进大家对艺术的了解,扫一扫识别APP上线了名画识别功能,本文将介绍其中涉及的技术。

背景

自上线以来,“扫一扫”功能从商品拓展到动植物、地标、汽车等垂直品类,从一般入口逐渐升级为获取信息的窗口,了解未知。

随着资讯的快速发展,现在网上有大量的创作资源,供大家欣赏以前只能在博物馆里看到的画作,其中有我们熟悉的画作,例如梵高、莫奈,也有很多我们经常看到的,看过却不认识的画作。

名画识别的目的是帮助人们提高艺术修养,增加对艺术作品的了解,目前名画识别功能支持识别超过30万幅名画,包括国内外名画、早期名画、近当代作品,包括油画、水墨画、版画等。

图 1-1 名画示例

名画识别目前不仅仅存在于扫一扫识别功能中,我们还可以通过在公众号、朋友圈、聊天窗口搜索来获得名画识别的结果。

图1-2 名画识别入口展示

名画辨识难点分析

对于名画识别,解决方法是从给定图像中找到距离最近的图片,同时限制距离以排除名画在库中不存在的情况。实现名画识别的主要难点如下:

● 数据极不平衡,对于一些著名的作品,我们可以得到各个场景的名画数据,但是对于一些不太受欢迎的画作,我们只能得到几张图片。

● 名画类别庞大,从不同来源获取数据时会出现类别重叠,清洗难度大

●名画拍摄角度多样,受场景变化、椒盐噪点、多重滤镜等影响较大。

●二次创作问题:一些名画会被重新创作,增加了鉴定的难度

●有些画作过于逼真,给名画检测带来很大混乱,从而导致大量负样本进入识别过程

整体解决方案

为了实现名画的识别,首先需要获得一个具有较强特征表达能力的检索模型,检索模型的训练可以采用无监督学习和监督学习两种策略进行,两者的主要区别在于是否需要标注信息,本节将对这两种策略进行介绍,并对两种策略进行了比较分析。

无监督学习

考虑到名画每个子类别的样本非常少,大部分只有一张图片,首先想到的是基于无监督训练模型获取特征。随着数据量不断增大,人工标注的成本太高。无监督学习近年来受到学者们的广泛关注,其中比较著名的有和Moco算法,都是基于对比学习的方案。

Moco 引入两种改进方案(MLP head 和更多的数据增强)显著提升了无监督学习的性能。因此我们采用了基于的无监督训练策略来进行模型训练,并通过数据增强达到相似的样本效果。学习流程如图 3-1 所示,对于给定的样本 x,选取一个(或一批)正样本 y(此处的正样本是对 x 采用不同的数据增强方法生成的样本)。

然后选择一批负样本(对于图像来说,除了x之外的图像),然后设计loss,缩短x与正样本的距离,增大与负样本的距离。

图3-1 无监督训练示意图

但是在实验中我们发现,无监督训练的Moco模型对于一些纹理类似的人像或者绘画等图像的特征表达能力不够,在一些非同一样本的距离小于同一样本的距离时容易产生误差,导致top1召回失败,如图3-2所示。可见无监督学习对于细粒度特征的关注能力有些不足。

图3-2 无监督学习示意图

监督学习

考虑到无监督学习的不足,我们继续探索监督学习的解决方案,以便可以继续使用其他垂直类别(例如植物识别)的相关策略。监督训练的主要问题是数据样本获取困难,通过拍照很难获得足够的数据,而且很容易引入各种难以清洗的噪音。而人工采集和标注30万个样本的成本显然太高,不现实。

在分析名画数据带来的识别困难时,我们注意到名画多出现在聊天截图、壁挂画等场景,于是我们想到通过合成样本的方式,引入更多带有框架或者背景的样本。

微信扫一扫用英语怎么说呢_微信扫一扫用不了怎么回事_为什么微信扫一扫不能用

通过多背景、多帧的方式恢复名画场景变化的数据特征,同时通过数据增强的方式模拟常见的滤波转换样式、网络转载带来的模糊、椒盐噪声、截断问题等。

最后我们设计了在线数据合成方案来扩充名画数据,首先获取一批带画框的样本图片来标记内边框,然后随机合成带画框的样本,另外还加入一些常见的背景图片作为合成素材。

在生成过程中,我们随机选择了滤镜风格变换、图像分类中常用的各种数据增强(旋转、翻转、颜色亮度等)、保留大部分绘画主体的特殊裁剪方法、椒盐噪声、模糊等。图像的一些生成样本如图 3-2 所示。

图3-3 针对性数据增强示意图

确定数据增强策略后,我们采用与植物识别算法相同的算法进行模型训练和部署,由于大部分算法都相同,本文就不再赘述,详情可参考:

最后我们离线评估集上对比了监督与无监督训练,top1指标相差8分,线上对比结果也直观体现了监督模型的优势,可以看出监督学习比无监督训练的效果更好,视觉特征的表达力更强。

对比

识别模型提取这个特征,在大量的数据中匹配出最接近的图像,其实我们上线之后发现,这样的图像还有很多,如图4-1所示。

造成错误的主要原因是一些样本内容比较简单的简单画作与库中的相似图片接近,这也体现了过于注重全局信息而忽视局部特征的匹配。

图 4-1 部分

在训练过程中,识别模型仅针对名画进行训练,对于一些非名画的负样本的表达能力不足,因此模型对一些非绘画类图像、极简主义绘画、书法作品等的表现能力不强。

当存在上述情况时,仅通过名画库就很可能出现错误召回,而每个类别只有一张图片,无法通过投票等策略进一步限制。因此我们引入了进行二次验证的方法来防止错误召回。

我们利用SIFT提取,通过匹配局部特征点来进一步确认top1是否是同一张图,从而解决了上述问题。

整体流程是先通过识别模型进行提取,根据这个特征完成库中的搜索得到输出,然后判断top1的距离是否小于某个阈值,如果是的话,再通过SIFT提取进行二次验证,如果符合的话,输出对应的top1识别结果。

总结

名画识别相对于其他垂直类别样本数量较大,单张图片为一个类别,难以获得海量数据进行直接监督学习,利用合成数据可以覆盖大部分名画出现的场景,通过多样化的数据,模型可以很好的关注名画的局部特征。

最后,由于名画只预测前1名,所以我们需要再次验证最终结果,以消除误判。

我们整体的算法框架支持随意添加名画样本,如果需要增加新的名画识别类型,只需要添加新的样本即可,同时不需要判断是否有重复,重复添加图片完全不会影响最终结果,可扩展性非常强。

我们还会陆续介绍扫一扫和物体识别相关的其他算法,更多关于扫一扫的技术文章请关注微信扫一扫技术系列。

参考

[1] 何凯, 范华, 吴燕等, 2020年IEEE/CVF上发表的[C]//and 论文集. 9729-9738.

[2]陈晓,范红瑞,等.[J].水土保持研究,2019,29(12):1779-1786.

[3] 何凯, 张晓玲, 任书强, 等. IEEE Deep for Deep [C]//IEEE of Deep . 2016: 770-778.

[4] C, S, V 等 -v4, - 以及 [C]// AAAI 上的。2017, 31(1)。

[5] Chen T, S, M 等。[C]//上的A for。PMLR,2020:1597-1607。

[6]

微信人工智能

什么是微信AI?它不描绘科技的炫酷,也不依赖拟人化的形态,它无声无息却无处不在,它用科技创造更高的效率,它更懂你。

微信AI专注于语音识别与合成、自然语言处理、计算机视觉、工业级推荐系统等领域,成果对内应用于微信翻译、微信视频号、微信看点等业务,对外应用于王者荣耀、QQ音乐等产品。

分享