Флітто та Апстейдж утворюють союз для поліпшення мовного ШІ за допомогою збору багатомовних даних.

Створення колосальних мовних моделей для азійського ринку

Flitto, підприємство зі збору даних про мови, оголосило про співпрацю з фірмою з інформаційних технологій Upstage для покращення великих мовних моделей (LLM). Основний акцент буде зроблений на покращення продуктивності LLM шляхом збору даних для малоресурсних мов, таких як тайська, японська, в’єтнамська, лаоська та кхмерська, характерних для азійських регіонів.

Цілі співпраці

Стратегічне партнерство буде охоплювати розробку рейтингу корейської мовної моделі під назвою “Ko-LLM”, управління багатомовними лідербордами LLM та використання малоресурсних мов для локалізації LLM. Обидві сторони мають на меті підвищити складність мовних моделей ШІ та задовольнити попит підприємств на менші набори даних мовних моделей (sLLM).

Покращення точності мовної моделі

Користуючись своїм досвідом у створенні багатомовних паралельних корпусів та багатих наборах даних без проблем з авторськими правами, Flitto планує підвищити конкурентоспроможність своєї технології збору мов. Тим часом Upstage спрямовує зусилля на забезпечення високоякісних даних для малоресурсних мов для розширення його попередньо навченої LLM під назвою “Sola”. Oчікується, що Sola підтримуватиме більш широкий спектр мов, у тому числі японську та тайську, до кінця року, вже встановивши підтримку корейської та англійської мов.

Очікувані наслідки на екосистему ШІ

Представники обох компаній виразили стратегічну важливість цієї співпраці. Генеральний директор Flitto відзначив значення вивчення малоресурсних мов як ключа до покращення продуктивності LLM, тоді як керівництво Upstage підкреслило необхідність якісних даних для глобальних інновацій в галузі ШІ. Альянс розглядається як перспективний крок у напрямку позитивного внеску в домашню екосистему ШІ та покращення глобального досвіду в галузі генеративного ШІ.

Ключові питання та відповіді:

Що таке малоресурсні мови і для чого вони важливі для LLM?
Малоресурсні мови — це мови, для яких відносно мало доступних цифрових текстів для навчання моделей машинного навчання. Ці мови важливі для LLM, оскільки їх додавання може підвищити здатність моделей розуміти та генерувати текст у більш широкому спектрі мов, що робить застосунки ШІ більш інклюзивними та актуальними для більшої кількості людей.

З якими ключовими викликами пов’язані збір даних для малоресурсних мов?
Одним із ключових викликів є відсутність наявних наборів даних, що робить необхідним створення нових ресурсів з нуля. Це часто включає трудомісткі та витратні ініціативи, такі як залучення носіїв мови, забезпечення якості перекладів та збір досить різноманітного та великого корпусу тексту.

Які конфлікти можуть виникнути внаслідок цієї співпраці?
Проблеми, такі як питання конфіденційності, етичне використання даних та можливі упередження в моделях ШІ, можуть бути конфліктами, пов’язаними з будь-якими масштабними зусиллями зі збору даних та розвитку ШІ.

Переваги та недоліки:

Переваги:
– Покращена інклюзія в застосунках ШІ за рахунок підтримки більшої кількості мов.
– Підвищений рівень задоволення користувачів мовами малої кількості ресурсів за рахунок більш точних та природних мовних взаємодій з системами ШІ.
– Потенційні економічні вигоди від стимулювання внутрішньої екосистеми ШІ та відкриття нових ринків в Азії для послуг у галузі ШІ.

Недоліки:
– Потенційний ризик недостатньої якості даних або упередженість наборів даних через виклики збору даних для малоресурсних мов.
– Етичні питання, пов’язані зі збором, зберіганням та використанням даних, особливо в регіонах з відмінними поглядами на приватність та захист даних.
– Мовні моделі ШІ можуть не досягти паритету в продуктивності в усіх мовах, що призводить до нерівності в досвіді користувачів.

Як було запитано, ось запропоноване пов’язане посилання, забезпечуючи його валідність станом на мою останню актуалізацію:
Flitto
Upstage

Висновок:
Партнерство між Flitto та Upstage є значним кроком у вирішенні потреби в LLM, які можуть підтримувати різноманітні мови, особливо ті, які є недостатньо представленими. Працюючи разом, вони сподіваються подолати мовний розрив в технології ШІ та сприяти більш різноманітному лінгвістичному представництву, що приносить користь користувачам у всьому світі. Хоча існують виклики, потенційні переваги більш складних та інклюзивних мовних моделей ШІ створюють захопливе майбутнє для глобального інноваційного розвитку в галузі ШІ.

Privacy policy
Contact