只需安装一个应用程序,你的整个生活就会变成人工智能。
各位家人们,支付宝都这么火了吗?
输入“购买周日高铁票,北京至武汉,下午出发,最短行程”,点击三次,等待几秒,购票成功!以前,要翻几页、点击十几次才能搞定,感觉像在开玩笑。
在国内各大互联网平台纷纷推出AI原生应用的同时,国民级应用支付宝也向市场交出了期待已久的答卷——一款全新的AI原生应用“智小宝”。
很多AI原生应用就像是一个全能助手,你可以问任何开放式的问题,它都能回答,虽然不是那么确定。
但“智小宝”不同,作为业界首个服务型的AI生活管家,它生动地展现了大型语言模型的应用如何从理解(Chat)走向实际行动(Act)。
支付宝诞生20年,每天有数亿人使用它支付、出行、理财、就医、做生意。成为普通人的“生活百宝箱”一直是它的立身之本。如今,在AI时代,“智小宝”接替支付宝,希望未来人工智能也能像二维码服务一样,惠及每一个普通人。
1. 一句话,生命就是人工智能
乍一看,AI原生应用与移动互联网原生应用(支付宝)有很大区别。
单一的蓝色配色,加上极简的界面设计,让人感觉耳目一新。“此刻”和“对话”对应着“智小宝”的两大核心能力,主动陪伴和跑腿办事。“智慧体”预示着“智小宝”未来会结交很多朋友。
一个对话框“搞定一切”:只需您一句话,就可以立即获得叫出租车、预订车票和充值电话费等服务。
体验了一段时间之后发现,日常生活都被大模型处理了。
早上叫醒上班族的不是梦,而是咖啡,说一声“点一杯瑞幸咖啡的Whet ,到店自取”,就搞定!
支小宝会把取餐码,以及天气、重要新闻等写在便签上,贴在“现在”的公告板上。
扫描车站附近的二维码,即可领取咖啡,当发现公交车来了,点击“手机密码”、“我要坐车”,登车码就会立刻弹出。
本着“行动代替空谈”的精神,召集急需服务的“命令”已经演变成模板。
晨会结束后,如果你接到下周出差的任务,只需要在对话框中说出出发地、目的地、时间,甚至机票价格等要求,一键搞定,他们甚至还能帮你填写身份证号码。
午餐时间,“此刻”自动更新到中午的状态,前几天在网上购买的包裹已经到了。
天气太热了,上个月我花了多少钱电费?打开账户一看,果然,充值的大部分都是电费。
无论你是想给自己的手机充值,还是给好友转账,都无需亲自填写任何表格,智小宝都可以帮你搞定。
晚上还咳嗽,白天发烧,应该去哪个科室?“智小宝”请保健医生解答了这个问题,确定科室后,直接找到了医院挂号入口。
以前需要多次点击才能完成的事情,现在只需要一句话就能完成,AI就能帮你做到。智小宝还能整合线上内容,解答很多生活百科问题。
通过“对话”,你可以享受一句话调动日常服务的快感。进入“当下”,因为场景感知系统,“智小宝”会根据你的日常习惯和空间位置,主动提供陪伴。
它就像一块智能公告栏,实时更新待办事项。除了实时天气和新闻,当你快到地铁站时,会自动弹出上车码;当快递到达时,会在首页上公布取件码。如果你在黄山,请使用“智能体”里的“黄小松”,获取更多地道的本地服务。
你用得越多,它就越懂你,如果你经常打车去某个地方,“手机密码”里就会出现“打车去XX”。
2.用硬技术满足最接地气的需求
“智小宝”有点让人困惑。
当产品体验流畅到变得“不可察觉”时,人们往往会忽视其背后深厚的技术,甚至产生“这并不难做到”的错觉。
如果没有底层模型和算法能力的创新,就不可能有“一键浏览百万支付宝小程序”、“让8000万个数字生活服务‘触手可及’”这样的产品。
与大模型理解用户意图后直接调用商户接口不同,智小宝采用的是一种名为ACT(For)的智能服务技术,让智能助手拥有屏幕感知和模拟执行能力,就像给AI装上“眼睛”和“手脚”,让它模拟人类的交互(如点击、滚动和打字)来下单、订票。
ACT会先用大型语言模型理解用户的自然语言需求,然后将其转化为一系列具体的操作指令,让用户不用手动操作多个界面,就能用语言表达自己想要表达的意思。为了实现这个目标,支付宝在很多方面进行了探索和创新。
首先,支付宝实现了多模态数据采集,除了行为数据,还有页面图片、数字、按钮、输入框等各种元素,让系统能够“看到”并理解当前的用户界面,这就像是给机器人装上眼睛,让它能够在界面上精准操作。
有了“眼睛”还不够,还要有“四肢”才能跑腿。他们基于支付宝框架和容器能力,构建了一套模拟执行能力,专门解决支付宝App上的模拟执行问题。
为了提供更好的用户体验,ACT采用了“离屏”方案,将整个操作过程隐藏在用户的视线之外,这样用户就不会看到中间的操作过程,体验更加流畅。
除了这些会被媒体报道的底层创新之外,更多的技术和能力是在超级应用中积累的。
为了提升大模型的运算能力,支付宝还对Call(函数调用)进行了优化。通过采用函数表达、显式推理等先进技术,大模型理解和调用合适工具的能力显著提升。更重要的是,它们还利用来自实际业务场景的复杂数据来训练模型,大大提升了模型的“实用”能力。
作为泛生活服务数字化平台,支付宝拥有非常丰富的服务生态,如今通过AI重新打通了8000多个数字生活服务、400多万个小程序,这一举措堪比支付宝当初通过二维码搭建移动支付网络,对工程实施能力要求极高。
系统工程能力是这些日活用户过亿的中国超级应用的强项。“亚运数字火炬手”活动吸引了超过1亿人次参与,“五福节”活动支持了6亿次AI交互。这些成功案例不仅证明了支付宝处理海量用户请求的卓越能力,也彰显了其在解决大规模模型应用大规模落地过程中的算力支撑、成本控制等关键问题上的领先实力。
ACT正在从端侧渲染向端云协同渲染转型,虽然这个转型复杂度极高,但对于《智小宝》这种对响应速度要求极高的产品来说,这至关重要。尤其是ACT技术所需要的容器级云渲染,比《五福节》采用的简单界面渲染要复杂得多,对工程化能力的要求更高。
3.支付宝的“内生性”
不仅仅是人工智能,人工智能无处不在
过去20年,中国人的购物方式和日常生活发生了巨大变化。人们可以用二维码进行移动支付,而不是使用信用卡。手机不仅可以买机票、电影票,还可以打车、缴费、挂号就医,甚至领结婚证。支付宝已经成为“生活百宝箱”,但要立即从“百宝箱”里找到自己想要的东西并不容易。
今年4月,支付宝将AI引入全平台,在首页开始测试AI新品支付宝智能助手(“智小宝”前身),并将智能助手接入搜索、旅游频道、市民中心等多个场景。
下拉支付宝App首页即可唤醒,起到“App智能导航”的作用。随后,为了探索AI原生应用,给用户提供更极致的体验,推出了独立App“智小宝”。
可见随着LLM的火爆,每个公司都会选择最适合自己的方式去跟进。
等把聊天机器人当成神奇的通用接口,追求一个可以问任何开放式问题的全能助手。支付宝提供了另一种选择,转向更务实的应用层,看看它能帮助用户解决什么问题。
选择利用已有的产品生态和市场验证过的刚需(衣食住行)去落地新技术,支付宝降低了试错成本,可以更快获得市场反馈,即便有些产品可能失败,也能积累宝贵的经验,而且尝试得越多越好。
因此,支付宝选择的第一个方向是“内生”,用AI来更新整个平台,不只是All in AI,而是AI in All。他们并不宣称新的基础模型在各方面都是最好的,但对于他们想要更新的功能来说,它必须足够好。
事实上,找到合适的场景,把先进的技术变成普遍的服务,一直是支付宝最擅长的事情。蚂蚁集团CTO何正宇曾表示,“支付宝过去和今天的技术发展思路是一样的。”
这家国民 App 今天的成功,并非建立在预先设计好的“上帝视角”上,无非就是有山的地方修路,有河的地方架桥。虽然在激烈的竞争中走过弯路,但有一点始终没有变:我能为用户解决什么问题?如何让服务更简单、更敏捷?聚焦核心业务体验,掌握硬核技术。
当然,由于其核心是智能代理(AI),“智小宝”的未来并不像它带来的体验那么“简单”。
“智小宝”可以以多种形态承载和服务用户,通过专业智能体的深度连接,用户将感受到服务体验的代际升级,但这也需要千千万万个行业、无数个ISV共同“种草”。
在今天的外滩大会上,支付宝正式面向行业启动智能体生态开放计划,推出一站式智能体开发平台“宝箱”,依托智能体建设能力,商户、机构可以0代码、最快1分钟打造专属服务智能体,一键发布到支付宝生态。
在今天的外滩大会上,支付宝正式面向行业启动智能生态开放计划。
此前,支付宝已开始校对。
他们携手安徽黄山风景区,打造国内首个“全程AI陪游”景区,外地游客抵达黄山后,打开“智小宝”即可快速进入黄山智能体,启动AI陪游。
支付宝与浙江省卫健委联合推出的数字健康管家“安真尔”,也是基于连接多家医院和机构的智能生态系统。
20年前,支付宝发明了快捷支付,它对中国移动支付发展的贡献要很多年后才会显现出来。20年后,支付宝已焕发新生,进化的进度条已初现。
© 结束