未来智能计算机视觉模型的新时代

近年来,计算机视觉领域一直专注于识别客观概念,如动物、车辆和特定对象。然而,在现实世界中,我们越来越需要识别主观概念,这些概念在个体间可能存在显著差异。这些主观概念包括情绪预测、审美评判以及内容管理。面临的挑战在于创建用户中心的训练框架,使任何人都能根据其具体标准训练主观视觉模型。

为了解决这一挑战,敏捷建模最近推出了一个用户参与的框架,该框架将任何视觉概念转化为视觉模型。然而,现有方法仍然需要大量手动工作,使其效率较低。其中一个缺点是主动学习算法,这需要用户迭代标记大量训练图像,导致这一过程繁琐且耗时。迫切需要更有效的方法,利用人类能力,同时最大限度减少手动工作。

人类拥有的一个关键能力是利用一阶逻辑将复杂的主观概念分解为更易处理和客观的组件。通过将主观概念分解为客观子句,个体可以以非费力和认知无负担的方式定义复杂的思想。建模协作者工具就是利用了这种认知过程,允许用户通过将主观概念分解为其组成子部分来构建分类器。这显著减少了手动工作量,提高了效率。

建模协作者利用了大型语言模型(LLMs)和视觉语言模型(VLMs)的进展来促进训练。该系统利用LLM将概念分解为可消化的问题,供视觉问答(VQA)模型使用,使用户更容易定义和分类主观概念。用户只需手动标记一小批100张图像的验证集,极大减少了注释负担。

建模协作者与现有方法的一个显著区别是其在与主观概念相关的具有挑战性任务上的表现。与敏捷建模等方法相比,建模协作者不仅在困难概念上超越了人群评分者的质量,而且显著降低了手动真实标注的需要数量级。通过降低开发分类模型的障碍,建模协作者使用户可以更快地将其想法转化为现实,为计算机视觉中的最终用户应用开辟了新的途径。

建模协作者不仅提供了一种更易访问和高效的构建主观视觉模型的方法,还有可能彻底改变AI应用开发。通过减少手动工作量和成本,更广泛范围的用户,包括那些没有广泛技术专长的用户,现在可以参与创建根据其特定需求和喜好定制的视觉模型。这种AI开发的民主化可以导致创新应用在医疗、教育和娱乐等各领域的出现。通过赋予用户快速将其想法转化为现实的能力,建模协作者有助于推动AI的民主化,并促进AI解决方案的更具包容性和多样性。

FAQ

The source of the article is from the blog elblog.pl

Privacy policy
Contact