探秘苹果在AI领域的突破: 理解屏幕背景

苹果研究人员最近在人工智能(AI)领域取得了重大突破,他们开发了一个能够全面理解和感知屏幕背景的系统。该系统被称为ReALM(Reference Resolution As Language Modeling),它利用强大的语言模型来解决参考解析这一复杂任务,将其转化为一个纯粹的语言建模问题。通过这种方式,ReALM使得AI能够把握屏幕实体的模糊引用以及对话和背景信息中的语境线索,从而实现与语音助手更自然的互动。

理解语境,包括引用,对于对话助手的最佳功能至关重要。有了这一突破,用户可以向他们屏幕上看到的任何东西发出查询,为使用语音助手提供真正的免持体验。相较于现有方法,ReALM表现出显著的性能增益,甚至在这一特定任务上超过了GPT-4。

ReALM的一个值得注意的创新在于它能够通过利用解析的屏幕实体及其位置来重建屏幕布局,生成准确捕捉视觉排列的文本表示。通过专门为参考解析微调语言模型,研究人员成功展示了ReALM在处理基于屏幕的引用方面的效率。

尽管研究成果令人振奋,但重要的是要承认仅依赖自动解析屏幕存在局限性。更复杂的视觉引用,如区分多个图像,可能需要结合计算机视觉和多模态技术。

苹果在AI研究方面的进展具有重要意义,尽管在AI领域落后于其科技竞争对手。该公司的研究实验室在诸如多模态模型、AI动画工具和专门AI开发领域取得了显著进展。这些进步清楚展示了苹果致力于提升 Siri 和其他产品,使其更具对话和语境意识。

然而,苹果面临着来自谷歌、微软、亚马逊和OpenAI等科技巨头的激烈竞争,这些公司在各个领域积极利用生成式AI。尽管苹果相对较晚进入AI市场,但其雄厚的财务资源、强大的品牌忠诚度、出色的工程能力以及紧密集成的产品组合为其赶上提供了机会。

在六月的全球开发者大会上,预计苹果将推出新的大型语言模型框架,并推出一个名为“Apple GPT”的聊天机器人,展示其生态系统中集成的AI功能。苹果首席执行官蒂姆·库克已经暗示了公司内部的大力AI努力,肯定了苹果在推进这一领域的决心。

随着AI主导地位争夺的激烈,苹果旨在在塑造无处不在、真正智能的计算时代中发挥重要影响。尤其是在理解屏幕背景方面所取得的进展,使苹果更接近实现这一目标。

常见问题解答(FAQ)

The source of the article is from the blog girabetim.com.br

Privacy policy
Contact