Une équipe de chercheurs de l’Université de Zhejiang, l’Université nationale de Singapour, l’Université de Californie, Ant Group et le Groupe Alibaba ont mené une étude sur l’édition des connaissances pour les grands modèles linguistiques (LLM). Les LLM ont récemment montré leur capacité impressionnante à traiter et mémoriser d’importantes quantités d’informations, dépassant la capacité humaine.
Pour garantir l’équité et la sécurité des systèmes d’intelligence artificielle (IA), il est crucial de comprendre comment les LLM affichent et traitent les informations. Cette étude vise à dresser un état des lieux des techniques d’édition des connaissances pour les LLM en examinant l’historique et l’état actuel. Les chercheurs fournissent une présentation de la conception des LLM, de la manière dont les connaissances sont stockées, ainsi que des approches connexes telles que l’affinage des paramètres, l’augmentation des connaissances, l’apprentissage continu et le désapprentissage des machines.
Les chercheurs classent les stratégies d’édition des connaissances pour les LLM en trois catégories : édition des méthodes de connaissance interne, fusion des connaissances dans le modèle et recours à des connaissances externes. Ces stratégies s’inspirent des processus cognitifs humains, tels que la reconnaissance, l’association et les phases de maîtrise de l’apprentissage.
L’étude inclut des expériences menées sur douze ensembles de données de traitement du langage naturel, en tenant compte soigneusement de la performance, de la praticité, des mécanismes sous-jacents et d’autres facteurs. Les chercheurs créent un banc d’essai appelé KnowEdit pour évaluer l’insertion, la modification et l’effacement des informations en utilisant des techniques d’édition de connaissances LLM de pointe.
Les résultats montrent comment l’édition des connaissances affecte les tâches générales et l’édition de connaissances multi-tâches, démontrant qu’elle met à jour avec succès les faits sans impact significatif sur les capacités cognitives du modèle et son adaptabilité dans différents domaines de connaissances. De plus, les chercheurs explorent les limites et les répercussions potentielles de l’édition des connaissances pour les LLM.
De plus, l’étude aborde la vaste gamme d’applications de l’édition des connaissances, notamment l’IA fiable, l’apprentissage automatique efficace, le contenu généré par IA et les agents personnalisés dans l’interaction homme-machine. Les chercheurs espèrent que cette recherche inspirera d’autres explorations sur les LLM, se concentrant à la fois sur l’efficacité et la créativité.
Les chercheurs ont rendu tous leurs ressources, y compris les codes, les ensembles de données et les points de contrôle des modèles entraînés, disponibles publiquement pour encourager davantage d’études dans ce domaine.