Flitto和Upstage形成联盟，通过多语种数据收集提升语言AI。

为亚洲市场打造庞大的语言模型

Flitto，一家AI语言数据企业，宣布与AI技术公司Upstage合作，以增强大型语言模型（LLMs）。他们的主要重点是通过收集低资源语言，如泰语、日语、越南语、老挝语和高棉语，来改善LLM的性能，这些语言在亚洲地区广泛使用。

合作目标

这一战略合作伙伴关系将包括开发一个名为“Ko-LLM”的韩语LLM排行榜，管理多语言LLM排行榜，并利用低资源语言来本地化LLMs。双方的目标是提升AI语言模型的复杂性，并满足企业对较小语言模型数据集（sLLMs）的需求。

提高语言模型准确性

Flitto计划利用其多语言平行语料库创建和不涉及版权问题的丰富数据集的专业知识，提升其语言收集技术的竞争力。同时，Upstage致力于为低资源语言获取高质量数据，以扩展其预先训练的LLM“Sola”。预计到年底，Sola将支持更广泛的语言，包括日语和泰语，已经建立了对韩语和英语的支持。

对AI生态系统的预期影响

双方代表都表达了这一合作的战略重要性。Flitto的首席执行官强调学习低资源语言对提高LLM性能至关重要，而Upstage的领导则强调全球AI创新需要高质量数据。这一联盟被视为积极贡献国内AI生态系统并增强全球生成式AI体验的有希望的一步。

关键问题和答案：

– 什么是低资源语言，为什么它们对LLMs重要？
低资源语言是指相对于训练机器学习模型可用的数字化文本数量较少的语言。这些语言对LLMs很重要，因为包含它们可以提高模型理解和生成更多语言文本的能力，从而使AI应用更具包容性，与更多人相关。

– 收集低资源语言数据存在哪些关键挑战？
一个关键挑战是缺乏现有的数据集，这使得需要从头开始创建新资源。这通常需要耗时且成本高昂的倡议，如寻找母语人士、确保翻译质量和收集足够多样化和大规模的文本语料库。

– 这种合作可能引发哪些争议？
隐私关切、数据道德使用和AI模型的潜在偏见可能是与任何大规模数据收集和AI开发工作相关的争议。

优点和缺点：

优点：
– 通过支持更广泛的语言，提高AI应用的包容性。
– 通过更准确和自然的语言交互，提高低资源语言使用者与AI系统的用户体验。
– 从刺激国内AI生态系统并在亚洲打开AI服务的新市场中获得潜在经济利益。

缺点：
– 由于收集低资源语言数据存在挑战，可能存在数据质量不足或数据集存在偏见的风险。
– 与数据收集、存储和使用相关的道德关切，尤其是在对隐私和数据保护观点不同的地区。
– AI语言模型可能无法在所有语言中表现一致，导致不同用户体验不均等。

如您要求，这是一个相关链接，确保其有效性截至我最后更新时：
Flitto
Upstage

结论：
Flitto与Upstage之间的合作对解决支持各种语言，特别是少数代表语言的LLMs需求迈出了重要一步。通过共同努力，他们希望弥合AI技术中的语言差距，并促进更具全球用户益处的多样语言呈现。尽管存在挑战，更复杂和包容的语言AI模型的潜在优势为全球AI创新带来了振奋人心的前景。

The source of the article is from the blog exofeed.nl