Nouvelle technique déverrouille le potentiel des modèles de langage volumineux

Une équipe de chercheurs a réalisé une percée dans le domaine du traitement du langage naturel (NLP) en introduisant une nouvelle technique de post-entraînement pour les modèles de langage volumineux (LLM). Cette nouvelle technique, appelée expansion par blocs, permet l’incorporation de connaissances spécifiques au domaine sans compromettre les capacités globales des modèles.

Le défi des LLM réside dans le fait que, bien qu’ils excellent dans diverses tâches, leurs performances sont limitées dans des domaines tels que la programmation, les mathématiques, les sciences biomédicales et la finance. La méthode actuelle de pré-entraînement adaptatif au domaine améliore les modèles, mais elle conduit à un oubli catastrophique, entraînant la détérioration des capacités générales du modèle.

Pour surmonter cette limitation, les chercheurs ont proposé l’expansion par blocs, qui consiste à étendre les blocs transformateurs des LLM. En ajoutant des blocs transformateurs dupliqués, les informations spécifiques au domaine peuvent être intégrées de manière efficace aux modèles pré-entraînés. Les blocs existants restent figés, tandis que les nouveaux blocs insérés sont ajustés en utilisant des corpus spécifiques au domaine.

Cette technique permet au modèle de conserver ses capacités générales tout en acquérant des connaissances spécifiques au domaine. Les chercheurs ont démontré l’efficacité de l’expansion par blocs en développant le modèle LLAMA PRO-8.3B, qui se démarque particulièrement dans les tâches générales, la programmation et les mathématiques.

La famille LLAMA PRO, y compris la variante de suivi des instructions LLAMA PRO – INSTRUCT, a démontré des performances supérieures par rapport aux modèles existants de la famille LLaMA. Ces modèles ont montré un grand potentiel dans le raisonnement et la gestion de diverses tâches en tant qu’agents intelligents.

Les principales contributions de cette étude comprennent l’introduction de la technique d’expansion par blocs pour les LLM, qui permet l’incorporation de nouvelles informations sans sacrifier les capacités existantes. De plus, les modèles flexibles LLAMA PRO combinent de manière transparente la programmation et les langues naturelles, excellant à la fois dans les tâches générales et spécifiques au domaine.

Les chercheurs ont minutieusement évalué la famille LLAMA PRO sur divers ensembles de données, mettant en valeur leur adaptabilité et leur potentiel pour gérer des applications complexes. Cette étude offre des informations précieuses sur l’interaction entre la programmation et les langues naturelles et ouvre la voie au développement de modèles de langage plus flexibles et puissants.

En conclusion, la technique d’expansion par blocs révolutionne les capacités des LLM, leur permettant de devenir des agents de langage puissants capables de fonctionner efficacement dans différents domaines. Les résultats de cette recherche soulignent l’importance de surmonter les limites des LLM et ouvrent de passionnantes possibilités pour l’avenir du traitement du langage naturel.

The source of the article is from the blog klikeri.rs