传感器与大模型结合:智能助手的新突破,创造过程如登山

2024-11-09
来源:网络整理

当传感器与大型模型结合时,它们将帮助您管理手机、增强网络、做出智能建议……当您问它时,为什么您的手机这么热?它不会给出文字答案,但会帮助您清理内存并优化电池。

简而言之,它会像真正的人类助手一样熟练地使用手机上超过460万个应用程序。用其他人的话说,“这不是要制作一个具有所有功能的大模型,而是要教会大模型使用手机上数百或数千个应用程序。”

只是创造的过程就像爬山一样。他们依然走在茂密的森林里,看着雪山之巅,以及时隐时现的小道。

从事这样的创作感觉如何?

文字|金钟

编辑|李莉

寻找《雨天背着垃圾袋笑的女孩》

2023年11月1日上午11点,深圳国际会展中心,数千人的会场中,所有人屏住呼吸等待答案。

台上一名男子举起了手机。他正在寻找一张照片。几年前,他和妻子外出时遭遇了一场大雨。两人都没有带伞,只好向路边的保洁人员要了两件垃圾。包,把它披在身上,为自己遮风挡雨。妻子在雨中的“尴尬”令人捧腹。他拍了一张照片,但太久找不到了。

男人在手机对话框中输入:“找雨天背着垃圾袋笑的女孩照片。”一秒后,出现了一张照片,照片中他的妻子扎着马尾辫,背着黑色塑料袋,在公交车上大笑。照片捕捉到了那一刻的喜悦和爱。

该男子继续示威。还有一张照片。由于是在室外拍摄,所以背景比较杂乱。我输入“擦除路人”,所有路人立即消失。如果放大照片,你会看到路人消失后,背景的路面和墙壁奇迹般地恢复了。

执行这些操作的人不是一个人,而是一个手机智能助手。它的名字叫“蓝心小V”。

他继续操作,让兰馨小V看论文,总结论文要点;让它根据图片编辑朋友圈;让它制作一个关于《三国演义》的人物关系图;让它做双十一营销计划;让它根据聊天记录创建一个会议日程……一秒钟,答案就会立即出现。

这是2023年vivo开发者大会的场景。

在等待小V回答的同时,台下的工程师们既焦急又自豪。第一排坐着一位40多岁的程序员,脸圆圆的,看上去很年轻。他叫周全,蓝心小V的创作者之一,他自称是“老码农”。他的另一个身份是vivo副总裁、AI全球研究院院长。

他们的骄傲是有理由的。人们表面上看到的是蓝心小V在搜索照片、整理文字、与人交谈,但背后的基础是一个大模型,这是技术团队攻克的一个全球性难题:如何机器准确理解人的复杂语义? ,如何拥有推理能力,如何给出准确的反应,如何像人类一样自然地对话,如何接收和反馈信息。它不再是一个APP。你可以把它想象成你手机上的一个具有人类智能的助手。

输入命令,一秒钟就能得到答案。支持他的,是他周围1000多名同事。花费了 2,300 多天的时间创建了数千 TB 的数据,持续改进算法,并发表了 70 多篇文章。发表论文并申请专利700余项。只为这短短的一秒钟。

2023年,大型模型将成为科技领域最热门的话题。人工智能已经发展了很多年,但大型模型是一场革命性的变化。这意味着人类终于可以将几千年高度抽象的文明压缩成可以随时获取、人人都可以使用的知识。除了知识,更重要的是它越来越贴近人,拥有人的逻辑、情感和价值观。

人天生就有思考的能力,思考后才会做出决定。但这个过程如何发生是一个“黑匣子”,也许是世界上最困难的问题之一。数百年来,世界上最聪明的人一直在与这个问题作斗争。

早在17世纪,笛卡尔就思考过人们如何做出决定以及心灵如何控制行为。 1958年,被誉为“计算机之父”的美国科学家约翰·冯·诺依曼出版了《计算机与人脑》,试图提供答案。他对这个话题的探索贯穿了他的余生。

他身边的人和他的同伴也是其中的一部分。他们经历了一次伟大的冒险,今天他们交出了自己的答案。

志向

这是一个很长的故事。也许我们可以从2018年开始。

五年多前,2018年3月,在浙江乌镇,《人物》作者采访了周某。当时,他的职位是vivo人工智能负责人。他在vivo工作了十多年,开发手机系统、制造智能手机。当时,他刚刚上任,第一个任务就是打造vivo的人工智能团队。公司的支持力度有多大,从一个细节就能看出——他的招聘名额是1000人。

再往前看,那一刻,世界正在发生巨大的变化:不久前,同样是在乌镇,世界排名第一的中国棋手柯洁输给了人工智能机器人。这位年轻的棋手曾在比赛过程中躲在宣传板后面痛哭,直到主裁判找到他。这场比赛的意义太大了。它改变了全人类对科技、未来、自我的认知,也宣告了人工智能时代的到来。

同年,研究团队发表了一篇名为《is All You Need》的文章,介绍了一种名为“is All You Need”的新模型。以前的模型只能学习小规模的数据,但这个模型具有很强的语言学习能力,“可以编码非常宏大的知识”。

普通人只能模糊地看到世界正在发生变化,但作为内部人士,他们周围的人和他们的同事知道这种变化是根本性的,他们必须参与。

vivo创始人兼总裁沉巍召集全体高管,观看了斯派克·琼斯执导的电影《她》,片中一个孤独的人爱上了他的操作系统。接下来的一年,我和同事们走访国内外顶尖大学,逐一招聘机器视觉、语义理解等人才,打造了一个人工智能助手,名叫Jovi。这个名字的意思是“vivo的AI”,他希望vivo用户能够喜欢它。

《人物》和身边的人第一次见面是在Jovi出来的时候。这也是他职业生涯第一次接受媒体采访。他有些紧张,但更有活力。当时我们提到Jovi刚刚起步,离真正的通用人工智能还很远,但我们有信心“半年、一年后,它会有全新的面貌”。

也正是在那个时候,有志向的年轻人从四面八方涌来。

在与深圳隔海相望的香港,杨苏向其工作的香港理工大学递交了辞呈,并决定加入vivo。他的研究方向是时空感知智能。当我们在深圳一家街头咖啡馆见面时,他穿着一件T恤,短发贴在头皮上,还有一点胡茬。他语速很快,语气中蕴含着冷静和谨慎,还有难以掩饰的热情。

那是一个改变职业生涯的时刻。杨苏还记得,当时全面屏手机正在兴起,大家都在期待更好的解决方案,但vivo却另辟蹊径,推出了升降摄像头的全面屏手机。杨素好奇,就去了店里。他看到这么小的手机上,摄像头咔哒一声升起,发出机械声。 “你会想,哇,好迷人啊。” “原来还有这样一家有追求、有创新的公司”。

当然,他的职业选择不会因为一台相机而轻易改变。更重要的是他对行业的整体判断。他知道人工智能时代已经到来,但如果AI能够很好地理解用户,那只能在手机上进行——手机有十几个传感器,可以24小时跟踪用户。 “AI要真正发挥其价值,必须作为助手,只有手机厂商才能做好。”

在北京,刚刚从清华大学博士毕业的陈杰安也开始在vivo工作。他是数据领域的专家。 2018年左右选择职业方向时,他也意识到,如果自己在手机公司工作,将面对数亿用户,有更大的空间“带来不同的增量”。加入陈杰安的还有许多来自各大互联网公司的搜索专家。

人员编号到位,大家开始工作。天地之广阔,有时也意味着世界是贫瘠的,必须赤手空拳从头开始。

公司想要建设一个网站_想要网站建设公司怎么办_做网站建设公司

vivo人工智能事业部总经理肖方旭记得,他们刚成立AI团队时,并没有明确具体要做什么,一直在摸索。 AI 经过训练可以玩《王者荣耀》、围棋和双陆棋。有些探索是基于工程师的个人兴趣,他们想看看能擦出什么火花。

地图团队也是最早开始工作的团队之一。大家都知道人工智能的三要素是数据、算法和算力,而数据是基础。数据库建设是一项艰苦的工作,也是基础设施建设的一项工作。陈杰安和他的同事收集了大量的中国互联网数据,清洗数据,构建知识,最终形成了所谓的知识图谱。这需要时间和成本,也考验着人们的信心和耐心。

对于这群工程师来说,这是一个充满希望和潜力的时刻。

他们喜欢做一款能够实现“三全三自”、全场景、全连接、全交互、自学习、自索引、自建议的人工智能手机。这是一个非常美好的理想,在今天也不过时。

积蓄力量

但很快,聪明人发现,从技术享受到落地的道路比想象的要远。用周围人的话说,“满腔激情,却实际碰壁”。

墙是什么?简单来说,当时的技术无法支持Jovi像人一样说话——只能支持非常简单的对话,无法理解上下文,无法理解复杂的语言,也无法理解一句话中的两个指令。 “用户对智力的期望是,他们几乎不能像人类,或者像一个十岁的人。”但这在当时是不可能的。

这也是当年人工智能行业的普遍困境。 2018年,科技记者进行了测试,向当时市面上的几款智能助手提出了一个看似简单的要求:“推荐餐厅,而不是日本料理”。结果助理推荐的全是日本菜。 “不要”二字,却被他们一致忽略了。

很多人会本能地认为,既然自己能够创造出一个能够击败世界冠军的AI,那么创造一个能够处理人类日常事务的AI肯定不成问题。但事实恰恰相反。 “我们可以创造一个可以在围棋中击败柯洁的人工智能,但我们无法创造一个可以管理柯洁日常生活的人工智能。”

从根本上来说,要打败柯洁,AI只需要学会围棋,就是知识积累和规则匹配。与人的自然对话需要对语义、上下文和逻辑的理解,这涉及深入的沟通理解、复杂的询问和指导。这是人类尚未打开的“黑匣子”。

杨素在自己的领域也遇到了类似的问题。他原本打算做的是根据用户的时间和空间位置提供一些便捷的服务。例如,当用户乘坐地铁上下班时,在哪里上车、在哪里下车,手机可以提前预测并调出地铁代码。但当时的技术只能做到这一点——捕捉用户何时靠近地铁并立即启动乘车代码。所以同事经常问他:“我下楼吃午饭,路过地铁站时,你为什么要给我推送公交代码?”那是因为手机还没有进化到能够理解人类的生活——它们还在工作,你中午还不能坐地铁回家。

如果您看到这些限制,您应该做什么?这是一家在激烈竞争中生存了近30年的手机公司,以务实作为其不变的底色。

和同事很快决定,至少可以继续强化人工智能技术,并将其应用到手机的各个方面,给用户更极致的体验。例如,与视觉相关的技术可以改善摄影。例如,语音识别可以帮助听力受损的社区。

张成是vivo人工智能算法的负责人,为无障碍做了很多工作。两三年前,他看到一则新闻。警报响起。他多次给公安局打电话,但他不说话,只发出呜呜声。随后,民警通过定位找到了打电话的人,发现是走失的人。听力障碍人士。

这只是听力障碍者生活中无数烦恼之一。在听力障碍夫妇组成的家庭中,如果孩子从床上掉下来哭闹,父母是听不到的。对于听力障碍的送货员来说,送餐非常不方便。当他们去拜访时,一位重度听力障碍的女孩在手机上打出了一句话,告诉他们:“我无法与身体健全的人交流。”

这些故事触动了他们,而他们就是拥有工具的人——通过AI声音检测算法,他们可以识别周围的声音,比如孩子的哭声、门铃、闹钟等,把这些声音转化为信息,并进行推送给听不见的人。

在这个过程中,人们会更好地相互理解。人们说,他们后来发现,虽然算法可以帮助听力障碍者“听到”,但他们仍然更习惯手语,因为它更自然、更高效。后来,他们想,能否创建一个手语解决方案?这在全球范围内是不可用的,他们只是自己做。

工程师们自学了手语,让机器能够识别手势并识别一系列连续手势所表达的含义。说到这里,我想起了南非前总统曼德拉的一句名言:“如果你用一个人听得懂的语言与他交流,他会记住它;如果你用他自己的语言与他交流” ,,,他会记住的。”

杨苏和他的同事也开始解决用户与时间和空间相关的痛点。用户的第一个痛点就是网络。有时候网络不好是因为手机连接的基站不好。如果手机能够智能选择最佳基站,问题就可以解决。他们已经解决了这个问题;另一种场景是所谓的“地铁黑洞”,就是地铁的某些区域确实没有网络,这是痛苦的,但如果用户多次经过这些区域,手机就会慢慢识别出沿途的路线,最后,它会告诉手机上的应用程序在进入“黑洞”之前加载更多内容;第三种情况是坐飞机时,手机会拼命上网,很快耗尽电池电量。他们让手机智能识别这个场景,起飞时禁用网络,落地时快速恢复。今天这也已经实现了。

这些改进对于用户来说是不可见的。 “如果你做了,没有人会喜欢,但如果你不做,用户就会痛苦。”这背后,他们做了大量的工作来研究用户的习惯、地点、偏好、场景和使用状态。

北京vivo地图团队的陈杰安和同事们已经收集数据五年了。庞大的专家团队,无数轰鸣的机器,还有全天候工作的爬虫系统,每月对中国互联网上的所有信息进行清理、过滤、整理和更新。截至目前,他们已经积累了超过的数据,并清理了15TB的数据用于模型训练。当数据达到一定程度的时候,其实就很难比较了。 15T数据相当于超过2000万册《三国演义》,相当于2.5个国家图书馆……

这样的蠢活在当时是很辛苦的,但后来证明,所有的辛苦都没有白费。

全部投入

真正转变的那一刻,是在他家的书房里,在他身边经历的。

大约一年前,我正在家里写代码。他是一个管理着数千人的老程序员。写代码不再是一份工作,而是一种周末消遣。说到这里,他的语气变得轻松起来,“周六周日,我最高兴的就是,哇!今晚我可以干大半夜了。”

他的同事们都不知道,他搭建了自己的服务器,一到假期,他就会一头扎进“疯狂更新算法”。它是世界顶级的机器学习竞赛网站。来自世界各地的程序员在这里竞争做同样的任务,争夺排名。如果算法好,排名就会上升。他们称之为“爬梯子”,世界各地的人们也会参与其中。在他看来,写代码仍然是最快乐的事情。程序可以把你想要的变成现实,并在竞争中击败别人。这是最直接的反馈,具有最强的多巴胺刺激。

去年冬天,当它推出时,他开始使用微软和微软(世界上最大的程序员论坛)的大型模型编写代码。当他输入指令并说要写一个框架时,“他很快就写完了”。当他看到那段代码时,周围的人都感到惊讶,“我当时就感觉相当于一个超级团队。”以前他对有些算法能不能写出来没有信心,要不就得花上几个月的时间。有了大型模型,他的程序已经运行了几个月,“生产力提高了数百倍”。

这一现象的出现也在全球范围内引起了震动。上线短短两个月,已有超过1亿人使用。 GPT-4 在四个多月后发布,被认为是通用人工智能的早期版本。用户可以向它提出各个领域的问题,与它进行无数轮的问答,体验与人类对话的感觉。

我周围的人和我的同事意识到,如果说2018年的Jovi是他们美好的想象,那么这一次,时机真的来了。

2023年伊始,大家关起门来,密集讨论了两个月。内部最终达成共识:就像蒸汽机一样,是划时代的变革,是带来生产力巨大提升的工具。他们必须对此进行投资。他们一起去了北京和杭州,参观了国内一流的大型模特团队。他们更加确信自己的思维和技术在做这件事上并不比其他人差。

另一个需要回答的问题是,已经有这么多大机型了,为什么vivo还需要自己造?国外的大型号中,有的不开源,有的不适合国内情况,有的不适合vivo产品。国产大型车型尚未达到成熟阶段。在成本方面,它们也是巨大的挑战。想来想去,我只好自己动手。并且,全部投入。

我问了一圈,我们应该如何理解All in?他说,“唯一的战略性、完整的选择。” 1000多名员工直接调往大模型方向,不太重要的事情全部停了下来。

他们之前积累的能量在这一刻爆发了——五年来积累的所有数据和知识图谱,这些都是大模型的基础;五年来他们密切关注的最新算法,发表数十篇顶级会议论文,700多项专利作为技术支撑;如果说大模型是大脑,那么它们在图像、声音、传感器等方面的积累,就是让手机长出四肢的东西。

他们创建的大型模型本质上是一本压缩了人类数千年知识的“字典”。它熟悉人类历史、文化和文明。无论你问什么问题,它都会给你答案。它的可贵之处还在于它拥有与人类相似的逻辑、情感和价值观。它能理解语言,有逻辑推理能力,有表达和生成的能力。与2018年的Jovi相比,如今的蓝心小V更像是一个真正的“智能助手”。

公司想要建设一个网站_做网站建设公司_想要网站建设公司怎么办

用户的需求是复杂多变的,也必须随之改变。他们的设计是这样描述的:用户最简单的需求,比如问天气、让小V做文档总结、使用10亿的大模型,在云端是不够的,在移动端就可以完成电话,快速且安全;更复杂的场景,比如多轮对话,比如用户出差,涉及到如何订机票、天气、行程等,他们又做了一个70亿的大模型;还有更复杂的任务,比如解决数学和物理问题,让大模型编写代码,以及专业的法律和医学知识。 ,这需要使用巨大的计算资源,所以他们不断地制作700亿、1300亿和1750亿的大型模型。

今年夏天,他们尝试将大模型的原型上榜,很快就获得了中国大模型评测榜C-Eval的第一名。

C-Eval榜单被认为是国内最权威的中国大型车型评测榜单。题库涵盖人文社科、理工科等,测试知识和推理能力,所有题均经过加工和人工清洗。

看到这个排名,所有人的心都沉了下去。

前进的道路

当然,这并不是一篇完全理想主义的文章,也不是描述一个流畅的童话故事。事实上,在采访中,有一半的时间都在讲述这个大模型仍然不完美,它仍然存在一些小缺陷。

今天我们看到的vivo大机型可以完成日常生活中的很多功能,比如传授知识、管理手机等。据后台数据显示,现在人们使用小V助手最多的场景是处理照片、写诗、绘画。画画、聊天,这些场景都已经成熟了。

但作为1.0版本的大机型,它也面临着业界普遍的困境——也就是大家所说的“大机型的错觉”。所谓大模型的幻觉,一来是它的逻辑思维能力还不强,二来它有时会“一本正经地胡说八道”、“它不知道它不知道”。

逻辑思维能力,一个简单的例子就是“鸡和兔同笼问题”。人类初中生可以解决,但机器可能做不好。关键在于思维链条是否完整。推而广之,这个问题在生活中的每时每刻都会出现:比如办公室窗边有一盆绿色植物,旁边有一个自动喷水的水桶。如果桶坏了会发生什么?人类明白,如果水桶坏了,无法浇水,植物就会渴死。再比如,如果口袋里有三颗糖果,有大有小,口袋里有一个洞,会发生什么呢?人类首先会问,这个洞有多大?如果太小,小糖果可能会掉出来。如果洞足够大,三颗糖果都可能掉出来。

涉及到的逻辑推理过程,如何让机器解决,周围人都觉得“里面还有巨大的空间”,这是内部的“第一个问题”。

另一个是“废话”的问题。人类社会的知识如此浩瀚,变化和更新迅速,而数据永远不够新、不够完整、不够深入。在更新数据、增强搜索能力的同时,他们处理某些问题的方式仍然具有vivo的务实风格:当用户提出非常专业的问题,比如医学上的某种疾病或症状时,大模型会建议去找专业人士医疗机构寻求资源。

周围的人坦诚地谈论着这些问题,但也有一种笃定和笃定的感觉——大模型带来的生产力提升。毫无疑问,他们走在正确的道路上。遇到山就造山,遇到水就架桥。

他的同事杨苏负责一个更高级的2.0版本,一个基于大型模型的代理。

他试图克服的核心问题是“语境”。 “上下文”有很多含义,它可以是对话的上下文。例如,如果用户提出请求“请继续讲昨天的故事”,这背后就存在一系列问题:昨天讲了什么故事?它去哪儿了?这个过程需要记忆储存、记忆检索和对单词的理解。这是人类与生俱来的能力,他们想把它加到机器上。这个过程对于机器能够理解人类至关重要。

“语境”也可以理解为对环境的感知。当我们与它聊天并输入文本时,它也会回复文本。但手机的优势就在于它拥有几十个传感器——是的,很多人都没有了解过,手机的前后置摄像头、GPS定位系统、WIFI功能、陀螺仪、加速度计、重力传感器总是像吸水的海绵。无论您是在步行、骑自行车、乘汽车、在公司、地铁还是在户外,它都能感知您的状态。当您接听电话时,手机会暂停屏幕以防止误触。

当传感器与大型模型结合时,它们将帮助您管理手机、增强网络、做出智能建议……当您问它时,为什么您的手机这么热?它不会给出文字答案,但会帮助您清理内存并优化电池。

总而言之,它会像真正的人类助手一样熟练地使用手机上超过 460 万个应用程序。用其他人的话说,“这不是要制作一个具有所有功能的大模型,而是要教会大模型使用手机上数百或数千个应用程序。”

只是创造的过程就像爬山一样。他们依然走在茂密的森林里,看着雪山之巅,看着时隐时现的小道。

从事这样的创作感觉如何?

杨素的心情颇为复杂。他说,一开始他担心公司不愿意做,所以他觉得自己必须参加。这是作为一名技术人员本能的使命感。但当你真正开始去做的时候,你就会有对未知的恐惧,对成功的渴望,以及许久没有体验过的新鲜感……

对于周围的环境,他曾经总是盼望着周末和长假,可以写代码、玩游戏,彻底放松。但现在他什么都不做了——因为制作大型模型的挑战、兴奋和乐趣胜过其他任何事情。

在工作群里,他盘点了这条漫长的路:2017年春节过后,他开始组建AI团队。 2018年3月,Jovi发布。同年,操作系统团队成立。六年过去了。 “总共已经有两千三百多天了,生命还没有到达世界末日。”

本质上,这是一个关于实现梦想的故事,一群人找到自己热爱的事情并坚定地投入自己的时间和生命。

5年前接受采访时,周文谈到了自己的一个想法:当时,他的一位家人因病晕倒了,这让他想到如果手机能感知一个人的心跳、心率、咳嗽等情况会怎样?通过摄像头、麦克风和其他传感器等。声音和鼾声“绝对可以提醒你提前就医。”当时,他描述的是一个令人兴奋的未来。

今天,他们用自己的双手实现了这个未来。在大模型的基础上,他们构建了“家庭健康管家”功能。手机不仅可以检测人们的健康数据、发送用药提醒,还可以将异常数据及时传输给家人。即使当老人的手机不小心安装了恶意应用程序时,他或她的孩子也可以从远处看到它,并且可以远程卸载。

这是他们想要的大型模型,助手,家庭成员,有时是治疗者,通常是助手,总是床罩。

(Yang Su,Chen Jie'an和 是文章中的假名。)

“角色”“时间的力量”系列书籍

单击图片购买↓↓↓

尊敬的读者,如果您不标记官方帐户,您不仅不会收到我们的最新更新,还将看不到我们精心选择的封面图像!明星“人”,不要错过任何令人兴奋的故事。我希望我们能像以前一样每天在一起。

分享