AI 2.0 时代,国产大模型迭代加速,应用落地成王道

2024-11-11
来源:网络整理

01

量变引发质变

国内大车型迭代加速

可以说,现在是一个人工智能概念泛滥的时代。似乎所有的新技术都是拿着人工智能金钥匙诞生的“大模型的孩子”。但俗话说“哭的孩子有糖吃”,人工智能的声音越大。 ,这往往意味着他们现在正处于需要关注和流量发展的阶段。那么此时此刻,中国的人工智能发展到什么程度了呢?

AI 2.0时代,应用落地是关键

在刚刚结束的北京车展上,大部分新车型都能“为所欲为”。例如,当驾驶员坐在车内时,他转头看向乘客的方向并说“打开那扇窗户”,乘客的窗户就会自动打开……这些无一例外,所有车型都配备了拥有大规模国产人工智能模型。通过模拟人脑和神经网络,具备语音、视觉等多模态交互能力,为驾驶舱提供更加人性化的控制能力,同时计算更加智能的驾驶能力。准确,越来越像一个持有驾照多年的“老司机”。

大型车模是国内人工智能发展的重要缩影——我们知道,在新能源汽车领域,我国是世界上最好的,而智能驾驶是人工智能发展的一个核心。应用方向。从应用角度来看,大模型可以分为通用、行业、场景三类。以前我们常说的大机型往往都是通用大机型。事实上,这也是大模型的理想形态,即它们真正对人类社会有益。科学和文化的全知、全能。但显然,对于现阶段的人工智能来说,整个世界的知识体系仍然过于庞大,这个目标有些不现实。

因此,目前的大规模人工智能模型已经走向了专用路线。通过输入行业专业数据,训练其形成场景化、定制化、个性化的模型,生成各个垂直领域的专有模型。实现人工智能赋能,在算力、数据、模型三端实现匹配,也标志着人工智能向更加精细化的方向发展。业界也以此为时间点,将当前的人工智能划入AI 2.0时代。 。

汽车是目前国产大型车型落地最快的领域。

我们以汽车领域为例。已推出的车用大型车型几乎都是业界知名的领军企业,包括但不限于华为的盘古、百度的文心一言、科大讯飞的、360的智能大脑等技术。企业常见的大型车型还包括比亚迪的炫极、小鹏汽车的灵犀等车企自主研发的车型,以及商汤科技的绝影端到端自动驾驶解决方案等行业大型车型。从终端来看,已有10多个品牌的汽车搭载了大型车型,其发展态势犹如火花般,将技术优势牢牢握在中国企业手中。

当然,除了近期大热的新能源智能驾驶之外,国产人工智能大车型在生成式AI领域也取得了长足的进展。很多业内人士都认同一个观点——在AI 2.0时代,生成式AI被视为推动生产力进步。如果这项重要技术能够在知识、推理、执行三个层面的能力上实现突破,那么将真正带来整个社会生产力的跨越式发展。从具体实现表现来看,目前国内人工智能确实有能力与国际一线实力抗衡。

以Kimi为代表,国内大模型分割应用的兴起

今年3月,北京月暗面科技有限公司推出的首款支持20万汉字输入的智能助手产品Kimi Chat在网络上引发热议。最新版本甚至支持200万字符,具备超大容量和长上下文处理能力。它帮助用户解锁长文本翻译理解、法律问题辅助分析、一次性整理几十张发票、快速理解API开发文档等丰富的功能。

除了大幅度提升长文本处理能力外,Kimi还强化了上下文窗口和无损记忆功能以及在线搜索和信息采集、数据处理、编写代码、模拟对话等多种使用场景下的多语言支持优势。也表现出色,为大模型应用的“长文本时代”打开了新局面。

国产大车型细分玩法逐渐丰富

从用户的角度来看,Kimi是免费且易于使用的。知识库涵盖科技、文化、历史、教育等多个领域,答案非常准确。还支持TXT、PDF、Word、PPT等常用文件。文档的内容分析功能,以电子产品行业为例,往往有专业性强的文档,长达数万字,需要被处理。文档包含复杂的数据格式,阅读起来费时费力,而且免费版本支持的文档最长约为2000个汉字。用户必须将长文档分割成很多小段才能上传,费时又费力。国外的另一款产品虽然支持数万字长文本,但每天只免费20次。

相比之下,现在使用Kimi,只需将这些长文档扔到对话框中就可以快速得到准确的答案,这大大提高了数据管理和信息检索的效率。而且Kimi的应用程序接口也非常丰富,包括手机应用程序、网页和微信小程序。对于大多数人来说,它的实用性甚至超过了GPT-4等大型付费模型。

京东直播AI数字人“购销东哥”为电商赛道注入新思路

当然,除了Kimi之外,最近另一个非常热门的话题就是京东推出的“购销冬哥”。刘强东以AI数字人的形式出现在京东直播间。

说实话,技术层面还存在缺陷,比如行动和对话自由度有限,真实感稍有欠缺。然而,AI数字人突破时间和空间的限制,提高直播、视频等内容生产效率的事实也摆在我们面前。同时,还可以减少对单一IP或明星的依赖,增强业务稳定性。而且这类应用由新一代人工智能大模型驱动,不仅能够拉动底层基础设施的需求,还能惠及相关计算产业链,促进社会整体生产效率的提升。更重要的是,该领域的应用也是国内率先推出的。 ,具有非凡的历史意义。

算力就是实力,大厂商仍是主角

汉字解析的书籍_汉字解析视频大全_小程序开发如何图片解析汉字

对于用户来说,我们看到的是人工智能的成果,但对于企业来说,大型模型并不是从天上掉下来的。他们背后需要强大的计算能力来“成就大事”。不过,如今的环境其实并不是特别好。一些国家对中国的“芯片封锁”正在加剧,不仅限制高端芯片的出口,也限制先进芯片制造设备的出口。

中国海关总署数据显示,2023年我国累计进口集成电路4795亿块,较2022年下降10.8%;进口金额3494亿美元,下降15.4%,创历史新低。不过,今年情况有所缓和。 1-2月,我国进口集成电路785.2亿块,同比增长16.8%。进口额547亿美元,同比增长15.3%,占我国货物进口的13.6%。与去年同期12.2%相比增幅明显,但总体压力依然不小。

在这样的大环境下,国内自主研发的人工智能计算芯片开始蓄势待发。根据国家统计局最新公布的数据,2023年我国集成电路产量为3514亿片,而2022年为3242亿片,同比增长6.9%。 ,创近年新高。也就是说,我们现在正处于国产人工智能硬件全面“替代”的阶段,政策支持已经明确显现出具体要求。即政策、企业、产业都在瞄准人工智能算力芯片,朝一个方向发力。

在这样的大环境下,国内科技巨头也是动作频频。例如,腾讯与阿里巴巴共同投资长鑫存储;美团投资碳化硅功率器件研发和制造商庆春半导体;字节跳动公司入股西源半导体;专注于安全芯片的蚂蚁集团无锡牧创完成数十亿元A3轮领投...

的大模型是下一个AI趋势

因此,国内大规模人工智能模型的开发实际上是一个非常昂贵的过程。巨头们潜心布局是必然的。以阿里巴巴统一千问为例,近期宣布推出自主研发的EMO模型“国民唱”,“统一千问App”的推出,可以通过输入参考图像和语音音频,生成具有真实面部表情和各种头部姿势的唱歌视频。

接下来我们还将对这个新功能进行详细的测试。毕竟,生成式AI的下一阶段最有可能是文盛视频。自今年2月Sora走红以来,谁能真正落实这个细分领域,谁就是赢家。可以在2024年站在人工智能行业的最前沿,但 对计算能力的需求与 Wen和 Tu不在一个水平上。因此,资源和资金雄厚的企业在这一阶段将具有更加明显的优势。 。

02

火爆朋友圈的国内现象级AI应用

积极打破圈子的非凡人工智能应用

任何新技术的落地都需要现象级应用的推广。当通用人工智能元年已成为过去,应用落地如何突破?

在讨论人工智能的无限可能性时,我们不得不提到它在各个领域的惊人能力和潜力。然而,对于大多数人来说,人工智能仍然陌生,甚至有些高不可攀。尤其是现在大模型无处不在,国内各大科技公司、初创企业、科研机构甚至大学研究实验室仅在过去一年就孵化出数百个国产大模型,这让公众对人工智能更加感兴趣。我对具体的应用场景和方向感到困惑。

百度创始人李彦宏在西丽湖论坛上公开表示:“持续、反复开发基础大模型是对社会资源的巨大浪费,有没有做大模型的机会?有,但是大模型的机会不仅仅针对大模型本身,更多的机会将来自于它上面的应用,在AI原生时代,我们需要的是100万级的AI原生应用,而不是100个所谓的大模型。”

大型模型太多,有价值的原生AI应用太少,就像空荡荡的商店,没有商品。算力浪费已经成为当前国内乃至全球人工智能领域的一个短板。在AI时代,大模型作为基础基础很重要,但类似操作系统的大模型要想发挥作用,用户总是需要依赖终端应用,但即便是创造了《我们的T2重制版》的Sora,尽管模态生成赛道代表了足够的话题性和流行度,但复杂的操作往往让初学者望而却步。

“破圈”成为人工智能应用落地的重中之重。 AI应用只有打通应用场景,才能实现流量变现,并在庞大的C端用户群体的支撑下持续增长。

妙雅相机成功“破圈”

在AI应用破圈方面,9.9元的秒芽相机无疑树立了一个很好的榜样。凭借华丽精致的拍照品质和用​​户的高相似度成功破圈。在海外,等AI拍照生成应用迅速崛起,单纯通过内购就获得了数百万美元的收入,再加上“Chat & Ask AI”、“-AI Chat Bot”等AI聊天软件,月收入可超过两成到了300万,人们清楚地看到了C端消费市场的潜力,以及AI应用细分破圈的趋势。

童艺浅文 EMO 让蒙娜丽莎歌唱

让蒙娜丽莎唱歌、高其强传授法轮大法……微信朋友圈一系列创意视频背后,阿里巴巴同艺倩文EMO浮出水面。 EMO是阿里巴巴集团智能计算研究院最近推出的一项全新的AI图音视频模型技术。它被官方定义为“一种富有表现力的音频驱动的肖像视频生成框架”。

统一钱文EMO的有趣之处在于,用户只需要提供一张照片和一个任意音频文件,EMO就可以生成一段说唱视频以及动态短视频,实现无缝对接,比如《快点》电视剧《高其强》中讲罗翔的法轮大法;蔡徐坤一张照片就能通过其他音频“唱”说唱,连嘴型都几乎一模一样。

拿到第一批测试资格后,《电脑报》记者点开了一问文App。按照提示升级到最新版本后,他在主页对话框中输入“EMO”进行激活。

汉字解析视频大全_小程序开发如何图片解析汉字_汉字解析的书籍

包含《全民舞王》和《全民歌唱》两大板块的EMO

进入EMO操作界面后,笔者发现它由“全民舞王”和“全民歌唱”两大板块组成。前者前不久凭借《兵马俑舞‘科目三’》走红朋友圈。此次EMO显然升级的重点在于“全民唱响”版块的打造。

“全民唱响”版块目前共有热门歌曲、热门影视表情包、表情包三个类别。同时,底部设计了一个“创意广场”(“创意广场”的内容目前尚未进一步细分)。用户只需点击进入,如果喜欢该模板,则点击“播放同款”按钮,根据需要上传图片即可生成类似的视频片段。

感觉有点像某音“拍同款”

这里上传的图片必须符合EMO要求,并保证正面完整出现在图片中。上传完整、合适的照片后,用户就可以安心等待。

从生成效果来看,表达效果非常好。任何声音、任何语速、任何图像都可以一对一匹配,像这样最长的动态短视频可以持续1分30秒左右。请一个表情冷酷的女孩唱一首俏皮的歌曲,本身就是一件非常有病毒性和话题性的事情,自然很容易就能刷爆朋友圈。

有的网友复活了自己的偶像,有的网友复活了课本上的历史人物。有很多有趣的视频,每个人都玩得很开心。网友戏称,有了EMO,就不再有EMO了。

日益流行的图形和视频轨道

统一千文EMO可以说是一手捧红了整个国产图胜视频电路。除了阿里巴巴之外,美图视觉.0和字节AI创作平台也嵌入了图胜视频功能,腾讯也与清华大学、香港科技大学联合推出了新的图胜视频模型“-你的-”,但没有像同易千文那样,图胜视频功能可以以类似小程序的形式融入到AI大模对话App中。

字节AI创作平台还集成了“图胜视频”功能

与以图什视频为核心优势的大型AI模式如皮卡、皮卡等不同,国内的“图什视频”应用往往背靠阿里巴巴、美图、字节等巨头,其庞大的生态系统足以推动“图什视频”的发展。 “图胜视频”功能快速落地,“图胜视频”本身创作的作品可以反哺巨头的生态内容体系。

不同平台的“土生视频”功能背后,往往是各大巨头之间大模型功底的较量。

有趣的《统一千文》EMO并不是凭空出现的。背后是阿里巴巴多年来在AI大模型和应用领域的持续投入和耕耘。一年多来,阿里巴巴推出了《统一千文》、《统一万象》等多款标杆A尺模型产品,以及基于双流的真人换装技术、人物动画模型等技术。条件扩散模型实现多场景应用。今年年初,阿里巴巴推出了Qwen-VL模型,经过多次迭代升级,并宣布了Plus和Max两大版本升级,支持图像和文本作为输入,支持文本、图像和检测框作为输出,让大型模型真正具备“看”世界的能力。

EMO 框架使用扩散模型来生成富有表现力的肖像视频。该技术主要由三个阶段组成:首先是帧编码的初始阶段,用于从参考图像和运动帧中提取特征;其次,在扩散过程阶段,预先训练的音频编码器处理音频嵌入。面部区域掩模与多帧噪声集成来控制面部图像的生成;三是利用骨干网络方便去噪操作。网络参考注意机制和音频注意机制应用了两种形式。这些机制对于保存角色的身份和规范角色的行为分别至关重要。另外,EMO的时间模块用于操纵时间维度,调整移动速度。

现象级应用的背后始终是AI大模型技术的竞争

从图片到视频,人物微表情往往是判断AI生成的视频内容是否“一看就是假的”的关键。 Byte曾被不少用户评价“对人体动作的整体模拟做得很好,但在面部表情、手指动作等细节上还比较粗糙。尤其是在长时间的特写下,人物微妙的表情变化往往不够到位,显得有些呆板,《腾讯-你-》设计的数据集是为了强调人类的情感、动作和物体的常见动作,并设计了动作增强模块来。使模型能够理解简短的提示。

统一千问EMO此次能够在终端市场引起轰动,与其出色的面部表情管理有很大关系。 EMO推出速度控制器和面部区域控制器,可以控制面部微表情,使视频更具表现力。

观看EMO网友制作的视频,你会发现,在唱歌时,视频中的人物也能根据歌曲的情绪变化而产生微妙的面部表情变化,非常具有表现力。当然,EMO仍然只是一个逼真的视频,但它变得更加流畅和真实。从逻辑上讲,它与几乎是专业赛道的Sora还是有很大不同的,但其独特的社交属性和低门槛足以让它具备成为现象级应用的潜力。

总体来说,从让郭德纲说英语、让斯威夫特说中文的翻译视频生成工具,到开启AI证件照热潮的“妙芽相机”,再到如今的统一千文EMO,AI频繁被运用在消费市场。在孵化热门应用的同时,也促进了整个C端市场的成熟。无论是每月收费20美元的Plus,还是用户积极讨论会员付费机制的Kimi,AI C端应用的时代已经开始……

分享