4 月 2 虽然目前还有日新闻 Siri 可以尝试描述信息中的图像,但效果不稳定。然而,苹果并没有放弃人工智能领域的探索。苹果的人工智能团队在最近的一篇研究论文中描述了一种可以显著改进的方法 Siri 他们认为这就是所谓的智能模型 ReALM 模型优于测试 OpenAI 知名语言模型 GPT-4.0。
ReALM 特别是,它可以同时理解用户屏幕上的内容和正在进行的操作。本文将信息分为以下三类:
屏幕实体:指当前显示在用户屏幕上的内容。
对话实体:指与对话相关的内容。例如,用户说 " 给妈妈打电话 ",因此,母亲的联系信息是对话实体。
背景实体:指与用户当前操作或屏幕显示内容可能不直接相关的实体,如正在播放的音乐或即将响起的闹钟。
若能完美运行,ReALM 将使 Siri 它们将变得更加智能和实用。 ReALM 与 OpenAI 的 GPT-3.5 和 GPT-4.0 性能比较:
" 我们同时进行了测试 OpenAI 提供的 GPT-3.5 和 GPT-4.0 模型,并为它们提供上下文信息,让它们预测一系列可能的实体。GPT-3.5 我们只接受文本输入,所以我们只提供文本提示。 GPT-4 可以理解图像信息,所以我们提供了屏幕截图,显著提高了屏幕实体识别性能。"
那么苹果的 ReALM 表现如何?
" 我们的模型在识别不同类型的实体方面取得了显著进展。即使是最小的模型,屏幕实体识别的准确性也比原来的系统要高 5% 以上。与 GPT-3.5 和 GPT-4.0 在比较中,我们最小的模型与 GPT-4.0 性能相当,更大的模型明显优于。"
一个论文的结论是,ReALM 即使拥有比 GPT-4 参数要少得多,在性能上也能与之匹敌,在处理特定领域的用户指令时表现得更好,这使得 ReALM 可在设备端运行实用高效的实体识别系统。
对于苹果来说,如何在不影响性能的情况下将该技术应用到设备中似乎是关键,因为 WWDC 2024 开发人员大会即将到来 6 月 10 一般预计苹果将在日本举行 iOS 18 在新系统中展示更多的人工智能技术成果。