Google I/O 大会鼓励开发者利用新硬件在设备上运行人工智能

2024-07-27
来源:网络整理

引言:在今年的I/O大会上,公司建议开发人员做一些更正确的事。

如今的手机和PC都配备了新的硬件,可以直接在设备上运行人工智能,在今年的I/O大会上,他们鼓励程序员充分利用这一点。

这个想法是,即使没有互联网连接,也可以在本地存储的数据上运行大型语言模型。数据保持私密,永远不会离开设备,而且这种方法可以节省成本。

产品经理在I/O大会上说过这样的话:

“作为开发人员,您可以采取一些措施来减少或消除处理服务器端维护、容量、限制或另一个门户的成本的需要。”

操作模式

开发设备上的 AI 应用程序的能力是当今 AI 方法的一项重大进步。

新款手机和个人电脑中的神经处理器使设备上的人工智能成为可能。

如果你还没有注意到,AI 已经存在于设备上。它运行智能手机的基本活动,例如建议短信、改善图像以及分析功耗以节省电池。

新款手机和 PC 中的神经处理器使设备上的 AI 成为可能。然而,在没有任何 AI 加速器的 PC 上运行具有 10 亿个或更多参数(例如 Phi-2)的 LLM 是不可行的。速度非常慢。

我们只能使用 Jan.ai 或 在 CPU 上运行 LLM,但这会给个人计算机带来相当大的负载。

在具有强大 GPU 的 PC 上运行大型语言模型是可能的。但设置起来却很麻烦 — 我们需要下载模型、加载神经网络环境(例如)、安装开发人员工具并进行编译。

能够在设备上执行矩阵数学运算的新一波加速器和 GPU 使得在手机上实现 AI 成为可能。

因此,大多数 AI 计算都在云端强大的 GPU 上进行,这非常简单,只需将 GPT-4 API 加载到聊天机器人界面,然后将查询卸载到服务器基础设施中的 GPU 即可。它不是免费的,您必须付费才能使用基础设施。

包括 GPU 在内的新一波加速器能够在设备上执行矩阵数学运算,使得在手机上运行 AI 成为可能。

苹果新款 8A 手机搭载了用于 AI 的 Edge TPU(张量处理单元),英特尔和 AMD 在 PC 上都有神经处理单元。设备上的 AI 可以与基于云端的 AI 资源相结合。

开发工具

包括 AMD、英特尔和英特尔在内的芯片制造商已经提供了在其设备上运行 LLM 的开发工具。

在其开发者大会和社区中,它提到了利用其 Nano LLM 为移动设备开发的开发工具包、API 和其他工具。大型语言模型是多模式的,这意味着开发人员可以围绕它构建语音、图像、视频或聊天机器人等应用程序。

这一建议向开发者表明,Nano 是设备端 AI 最强大的模型,可以很好地融入到应用程序中。

I/O 开发者关系工程师 Ezan 表示:“Nano 是推荐的生产路径。”

对于那些不想被锁定在专有 AI 开发环境中的人来说,还可以提供支持二三十亿个参数的开源 LLM。

“如果你想在设备上运行通用推理,开放的大型语言模型在过去一年中也变得越来越流行,尽管由于性能和内存方面的挑战,它们不太适合生产环境。”

其中包括1B(13亿个参数)、Flan-T5(27亿个参数)、3B(28亿个参数)和2B(25亿个参数)。谷歌还将支持其开源LLM的70亿个参数模型。

开发者工具

开发人员可以通过Edge AI SDK将Nano AI集成到应用程序和开发环境中。

语音对话开发_手机开发对话小程序_手机端开发语言

SDK 为开发人员提供了各种高级 API、管道、模型推理和硬件挂钩,以高效运行 AI 模型。

移动设备的计算能力、带宽和内存有限。开发人员可以通过访问名为 的系统服务来微调模型,该系统服务集成在 14 中,可在 8a 和三星 S24 等符合条件的设备上运行。

开发人员可以使用量化来优化移动设备的模型,以减少模型大小和处理要求。

LoRA被认为是设备和应用程序中微调AI的重要组成部分。

开发者关系工程师 如此说道:

“上下文窗口也可能变得更小,模型的通用性也会降低……这意味着为了达到生产质量,微调至关重要。”

还包括一个称为低阶自适应 LoRA 的微调层,它允许应用程序开发人员自定义模型以执行特定任务。LoRA 被认为是设备和应用程序微调 AI 的重要组成部分。

软件工程师王淼表示:“应用程序可以训练自己专门的 LoRA 微调模块,以优化 Nano 模型的性能。”

支持开源大语言模型

是一个关键的 API,允许开发人员使用包括和在内的多个开源 LLM 创建设备上的 AI 应用程序。

开发人员可以使用该 API 为 和 iOS 设备编写 AI 网络应用程序。

该 API 为我们提供了预先优化的模型,这些模型必须携带权重参数才能在设备上运行应用程序,支持视觉、文本和音频应用程序,还有一些擅长特定任务的大型语言模型,API 还提供了选择模型的灵活性。

开发人员将依靠 API 为 和 iOS 设备编写 AI 网络应用程序。126 处于测试阶段,集成了对将网络应用程序连接到 Nano 和开源 LLM 的低代码 API 的支持。

I/O Core 机器学习首席软件工程师表示:

“它完全在浏览器中原生运行,而且速度很快。这是因为它在计算机的 GPU 上加速。这使得它足够快,可以构建非常引人注目的完全原生的 Web 应用程序。”

精简版

还提供 Lite 开发环境,这是机器学习框架的轻量级版本。还包含一个工具包,用于将模型转换为可在设备上运行的更紧凑版本。

“您可以在您选择的框架中找到现成的模型,训练模型,只需一步即可将您的模型转换为精简版。然后,您可以在 、Web 和 iOS 上与您的应用一起运行它。将它们捆绑到包中并在其上运行它们。”

芯片制造商高通上周还表示,开发人员将能够使用其最新芯片将其大型语言模型移植到智能手机上。

面临的挑战

应用程序开发人员热衷于利用现有的每一点处理能力来提高其应用程序的效率。

而且新一代设备将拥有更强大的AI马力,从而增强设备上的AI大脑。

我们面临的另一个挑战是将应用程序与合适的AI芯片相匹配。新一代设备将拥有更强大的AI马力,这将增强设备上的AI大脑。

戴尔产品管理总监扎克·诺斯基 (Zach ) 表示,戴尔已经推出了搭载英特尔 NPU 的新款 PC,但一旦开发人员找到相关应用程序,设备上的人工智能才会真正腾飞。

开发人员使用英特尔等工具对于推动行业发展至关重要。供应商正在与开发人员密切合作,以准备应用程序并解决开发人员可能不知道从哪里开始的问题。

例如,Gimp有一个支持图像生成提示的NPU插件。

Zach 总结如下:

“我们的想法是让开发人员和社区能够更快地使用它。之前它有点慢,就像过去几年应用程序的 CPU 和 GPU 利用率一样。”

分享