Společnost Scale AI spolupracuje s ministerstvem obrany na vývoji rámce pro testování a hodnocení velkých jazykových modelů

Společnost Scale AI se sídlem ve městě San Francisco podepsala jednoletou smlouvu s Úřadem šéfa pro digitální a umělou inteligenci Pentagónu (CDAO) na vytvoření komplexního rámce testování a hodnocení (T&E) pro velké jazykové modely (LLMs). Cílem této spolupráce je vytvoření spolehlivého a bezpečného způsobu nasazení generativní AI v rámci ministerstva obrany.

Velké jazykové modely, které jsou podmnožinou generativní AI, mají potenciál revolučně změnit vojenské plánování a rozhodování. Avšak existují inherentní výzvy při hodnocení těchto modelů kvůli složitosti anglického jazyka a nedostatku jednoznačné „zlaté pravdy“ pro posouzení přesnosti. Scale AI se pokusí řešit tyto výzvy vytvořením „udržovaných souborů dat“, které budou obsahovat vstup od interních pracovníků DOD pro vyvolání odpovědí, jež budou následně posouzeny a vyhodnoceny odborníky.

Prostřednictvím iterativního procesu, kdy budou rámec a data sety upřesňovány, budou odborníci schopni posoudit výkon stávajících velkých jazykových modelů ve srovnání s nimi. Budou vytvořeny modelové karty poskytující informace o kontextovém nejlepším použití různých modelů strojového učení a o měření jejich výkonu. Cílem je zlepšit odolnost a odolnost AI systémů ve tříděných prostředích, umožňující nasazení velkých jazykových modelů ve zabezpečených prostředích.

Postup T&E bude také zahrnovat benchmarking a sběr kvalitativní zpětné vazby od uživatelů ke zjištění hodnoticích metrik. Tato spolupráce s ministerstvem obrany pomůže DOD porozumět silným a slabým stránkám generativní AI, což umožní zodpovědné nasazení této technologie.

CEO společnosti Scale AI Alexandr Wang vyjádřil hrdost nad spoluprací s ministerstvem obrany na tomto rámci. Společnost se také spolupracovala s dalšími lídry průmyslu, jako je Microsoft, General Motors a Nvidia, k rozvoji technologií AI.

Tato spolupráce představuje významný krok vpřed při vyvíjení standardizovaného přístupu k testování a hodnocení velkých jazykových modelů v rámci obranného sektoru. Vytvořením rámce pro bezpečné a přesné nasazení AI může ministerstvo obrany využít potenciál generativní AI pro vojenské aplikace.

The source of the article is from the blog j6simracing.com.br