比较视觉模型：超越ImageNet指标

由MBZUAI和Meta AI Research共同进行的一项新研究深入比较了基于超越ImageNet指标的常见视觉模型。该研究的目标是为从业者提供关于这些模型固有特性的洞察，并帮助他们在选择预训练模型时做出明智的决策。

该研究重点关注计算机视觉领域的四个顶级模型：ConvNet（ConvNeXt）和Vision Transformer（ViT），它们使用监督和CLIP方法进行训练。选择这些模型是因为它们在所有训练范式下具有可比较的参数数量和ImageNet-1K准确度。

传统上，模型的评估是基于ImageNet的正确性等指标。然而，实际世界的视觉问题通常需要考虑不同的相机姿势、光照条件和遮挡物等因素。为了解决这个问题，研究人员探索了各种模型属性，如预测错误、泛化能力、校准性和学习表示的不变性。

研究结果显示不同模型表现出显著不同的行为，凸显了在单一指标之外进行综合评估的必要性。例如，与ImageNet性能相比，CLIP模型的分类错误较少。另一方面，监督模型在ImageNet鲁棒性基准和校准方面表现出色。与ViT相比，ConvNeXt在纹理偏好方面更出色，但在合成数据上表现良好。

一个重要的发现是，监督ConvNeXt在可迁移性方面优于CLIP模型，并在各种基准测试中表现良好。这表明不同的模型在任务分布上具有不同的优势。该研究强调了开发新的基准测试和评估指标的重要性，以确保精确的模型选择。

总之，在为特定需求选择视觉模型时，关注ImageNet之外的指标并考虑不同模型所展现的独特特性至关重要。该研究为从业者提供了宝贵的见解，并鼓励在计算机视觉领域进行进一步探索。

The source of the article is from the blog mivalle.net.ar