Tout savoir sur les LLM (Large Language Models), GPT-4, LLaMA, FLAN UL2, BLOOM

par Alexandre Jairson - mercredi 29 mars 2023 (20h28) , mis a jour le vendredi 11 août 2023

L’espace de modélisation du langage a connu des progrès étonnants depuis l’article Attention is All You Need de Google en 2017, qui a introduit le concept de transformers (le " T " dans tous les modèles GPT dont vous avez probablement entendu parler), prenant d’assaut le monde du traitement du langage naturel et étant la base de presque toutes les avancées en NLP (Natural Language Processing) depuis lors.

Le paysage actuel des LLMs est en évolution rapide et constante, avec de nombreux acteurs qui font la course les uns après les autres pour sortir une version plus grande, meilleure et plus rapide de leur modèle. Les investisseurs déversent des milliards de dollars dans les entreprises de TAL (traitement automatique des langues). OpenAI ayant à elle seule levé 11 milliards de dollars.

Pour l’instant, nous nous concentrerons principalement sur les LLM qui suivent des instructions (ou modèles de base), une catégorie générale de LLM qui font ce que vous leur demandez. Ces modèles diffèrent des LLM spécifiques à une tâche qui sont adaptés à une seule tâche comme le résumé ou la traduction.

Dans cette article nous vous proposons de découvrir les plus importants d’entre eux. Importants, pas nécessairement par leur succès, mais surtout par leurs puissances, leurs capacités. Nous vous proposns donc une liste des meilleurs LLM annoncés et publiés ces dernières années, ainsi que nos avis pour différents cas d’utilisation et contraintes.

Table des matières

GPT-4
ChatGPT
GPT-3
BLOOM
LaMDA
MT-NLG
LLaMA
Stanford Alpaca
FLAN UL2
GATO
PaLM
Claude
ChatGLM

GPT-4

OpenAI, taille inconnue, non open source, accès API uniquement

Meilleur choix pour un LLM entièrement hébergé, basé sur l’API (payant)

Annoncé le 14 mars 2023, GPT (Generative Pre-trained Transformer) 4 est le dernier modèle d’Open AI. Bien qu’il ne s’agisse pas strictement d’un modèle linguistique puisqu’il peut prendre en entrée des images aussi bien que du texte, il affiche des performances impressionnantes sur une variété de tâches, y compris plusieurs examens professionnels médicaux et juridiques.

GPT4 augmente également la longueur maximale de l’entrée par rapport aux itérations précédentes, la portant à un maximum de 32 768 tokens (environ 50 pages de texte !). Malheureusement, peu d’informations ont été révélées sur l’architecture du modèle ou sur les ensembles de données utilisés pour l’entraînement de ce modèle.

En raison des avancées en termes de capacités et de qualité et de la solide expérience d’OpenAI, GPT-4 est notre choix pour le LLM à utiliser si vous ne souhaitez pas héberger votre propre modèle et que vous voulez vous appuyer sur une API. A ce jour, un abonnement à ChatGPT Plus est nécessaire pour y accéder.

ChatGPT

OpenAI, 20 milliards de paramètres, non open source, accès API uniquement

Super choix pour un LLM entièrement hébergé, basé sur une API (niveau gratuit)

ChatGPT est un modèle de texte uniquement et a été publié par Open AI en novembre 2022. Il peut exécuter un grand nombre de fonctions basées sur le texte que GPT-4 peut exécuter, bien que GPT-4 affiche généralement de meilleures performances.

ChatGPT est un modèle frère d’InstructGPT. InstructGPT a été spécifiquement formé pour recevoir des messages et fournir des réponses détaillées en suivant des instructions spécifiques, tandis que ChatGPT est conçu pour engager des conversations en langage naturel. OpenAI propose fréquemment des mises à jour et de nouvelles fonctionnalités, telles que les plugins ChatGPT récemment annoncés, qui débloquent encore plus de cas d’utilisation du LLM.

L’accès de base (en dehors des heures de pointe) à ChatGPT ne nécessite pas d’abonnement, ce qui le rend adapté aux projets personnels ou à l’expérimentation. Si vous avez besoin d’un accès général même pendant les heures de pointe, un abonnement ChatGPT Plus est nécessaire.

GPT-3

IA ouverte, 175 milliards de paramètres, non open source, accès API uniquement

Annoncé en juin 2020, GPT-3 est pré-entraîné sur un large corpus de données textuelles, puis il est affiné sur une tâche particulière. À partir d’un texte ou d’une phrase, GPT-3 renvoie la complétion du texte en langage naturel. GPT-3 affiche des performances impressionnantes, tant au niveau de quelques coups qu’au niveau de zéro, pour des tâches de NLP telles que la traduction, la réponse à des questions et la complétion de textes.

BLOOM

BigScience, 176 milliards de paramètres, modèle téléchargeable, API hébergée disponible

Lancé en novembre 2022, BLOOM (BigScience Large Open-Science Open-Access Multilingual Language Model) est un modèle multilingue créé par une collaboration de plus de 1 000 chercheurs issus de plus de 70 pays et de plus de 250 institutions.

Il génère des textes dans 46 langues naturelles et 13 langages de programmation. Bien que le projet ait la même portée que d’autres modèles linguistiques à grande échelle comme le GPT-3, il vise spécifiquement à développer un modèle plus transparent et plus facile à interpréter. BLOOM peut servir de modèle de suivi d’instructions pour effectuer des tâches textuelles générales qui ne faisaient pas nécessairement partie de sa formation.

LaMDA

Google, 173 milliards de paramètres, non open source, pas d’API ni de téléchargement

LaMDA (Language Model for Dialogue Applications), annoncé en mai 2021, est un modèle conçu pour avoir des conversations plus naturelles et plus engageantes avec les utilisateurs.

Ce qui différencie LaMDA des autres modèles de langage est le fait qu’il a été entraîné sur des dialogues et que le modèle a été capable de discerner diverses subtilités qui distinguent les discussions ouvertes des autres types de langage.

Les cas d’utilisation potentiels de LaMDA sont très variés, allant du service à la clientèle aux assistants personnels, en passant par les chatbots et bien d’autres encore. LaMDA elle-même s’appuie sur un ancien chatbot de Google appelé Meena. Le service conversationnel alimenté par LaMDA s’appelle BARD et sera disponible via l’API "bientôt".

MT-NLG

Nvidia / Microsoft, 530 milliards de paramètres, accès API par application

MT-NLG (Megatron-Turing Natural Language Generation), annoncé en octobre 2021, utilise l’architecture du transformer Megatron pour générer un texte cohérent et contextuellement pertinent pour une série de tâches, y compris la prédiction d’achèvement, la compréhension de la lecture, le raisonnement de bon sens, les inférences en langage naturel, la désambiguïsation du sens des mots.

LLaMA

Meta AI, tailles multiples, téléchargeable par application

Annoncé en février 2023 par Meta AI, le modèle LLaMA est disponible en plusieurs tailles de paramètres, de 7 milliards à 65 milliards de paramètres. Meta affirme que LLaMA pourrait contribuer à démocratiser l’accès au domaine, qui a été entravé par la puissance de calcul nécessaire pour former de grands modèles.

Le modèle, comme les autres LLM, fonctionne en prenant une séquence de mots en entrée et prédit le mot suivant pour générer du texte de manière récursive. L’accès au modèle est réservé aux chercheurs, aux affiliés du gouvernement, aux universitaires, et seulement après avoir soumis une demande à Meta.

Stanford Alpaca

Stanford, 7 milliards de paramètres, téléchargeable

Notre choix pour un modèle auto-hébergé à des fins non commerciales

Alpaca a été annoncé en mars 2023. Il a été affiné à partir du modèle LLaMA 7B de Meta que nous avons décrit plus haut et est entraîné sur 52k démonstrations de suivi d’instructions.

L’un des objectifs de ce modèle est d’aider la communauté universitaire à s’engager dans les modèles en fournissant un modèle open-source qui rivalise avec les modèles GPT-3.5 (text-davinci-003) d’OpenAI. À cette fin, Alpaca est resté petit et bon marché (le réglage fin d’Alpaca a pris 3 heures sur 8x A100s, ce qui représente moins de 100 $ de coût) à reproduire et toutes les données et techniques d’entraînement ont également été publiées.

Alpaca est notre choix de modèle à utiliser uniquement pour des projets de recherche/personnels, car la licence interdit explicitement l’utilisation commerciale. Cependant, combiné à des techniques comme LoRA, ce modèle peut être affiné sur des GPU grand public et peut même être exécuté (lentement) sur un raspberry pi.

FLAN UL2

Google, 20 milliards de paramètres, téléchargeable sur HuggingFace

Bon choix pour un modèle auto-hébergé pour un usage commercial

Flan-UL2 est un modèle codeur-décodeur et, à la base, une version améliorée du modèle T5 qui a été entraîné à l’aide de Flan. Ses performances dépassent celles des versions antérieures de Flan-T5. Flan-UL2 a une licence Apache-2.0 et est notre choix pour un modèle auto-hébergé ou finement ajustable car les détails de son utilisation et de son entraînement ont été publiés.

Si les 20 milliards de paramètres de Flan-UL2 sont un peu trop nombreux, considérez l’itération précédente de Flan-T5 qui existe en cinq tailles différentes et qui pourrait être plus adaptée à vos besoins.

GATO

DeepMind, 1,2 milliard de paramètres, non disponible à l’utilisation

Annoncé en mai 2022, Gato est le modèle multimodal de DeepMind qui, comme GPT-4, est un modèle généraliste unique qui peut travailler non seulement sur du texte mais aussi sur d’autres modalités (images, jeux Atari et autres) et effectuer de multiples tâches telles que le sous-titrage d’images et même le contrôle d’un bras robotique ! Bien que le modèle lui-même n’ait pas été publié, il existe un projet open source visant à imiter ses capacités.

Modèle linguistique Pathways (PaLM)

Google, 540 milliards de paramètres, disponible via API

Le PaLM, annoncé en avril 2022, est basé sur l’architecture Pathways AI de Google, qui vise à construire des modèles capables de gérer de nombreuses tâches différentes et d’en apprendre de nouvelles rapidement. PaLM est un modèle de 540 milliards de paramètres entraîné avec le système Pathways, capable d’effectuer des centaines de tâches liées au langage et (au moment du lancement) d’atteindre des performances de pointe pour un grand nombre d’entre elles.

L’une des caractéristiques remarquables du PaLM est la génération d’explications pour des scénarios nécessitant de multiples étapes logiques complexes, comme l’explication de blagues.

Claude

Anthropic, taille inconnue, accès à l’API après l’application

Annoncé en mars 2023 par Anthropic, Claude est décrit comme un "assistant IA de nouvelle génération". Claude, comme les autres modèles de notre liste, peut effectuer une variété de tâches NLP telles que le résumé, le codage, l’écriture et la réponse à des questions.

Il est disponible en deux modes : Claude, qui est le modèle complet et performant, et Claude Instant, qui est un modèle plus rapide au détriment de la qualité. Malheureusement, peu de détails sont disponibles sur le processus de formation de Claude ou sur l’architecture du modèle.

ChatGLM

Université de Tsinghua, 6 milliards de paramètres, téléchargeable

ChatGLM, annoncé en mars 2023 par le Knowledge Engineering Group (KEG) & Data Mining de l’université de Tsinghua, est un modèle linguistique bilingue (chinois et anglais) qui peut être téléchargé sur HuggingFace.

Bien que le modèle soit volumineux, il peut être exécuté sur des GPU grand public grâce à la quantification. ChatGLM prétend être similaire à ChatGPT mais optimisé pour la langue chinoise et est l’un des rares LLM disponibles avec une licence Apache-2.0 qui autorise l’utilisation commerciale.

Notons qu’il existe d’autres LLM (Gopher, GLaM, Chinchilla ...) et que de nombreux acteurs du monde de l’IA auraient pu être cités ici.

Vous avez peut-être remarqué la récence de beaucoup de ces LLMs - l’intelligence artificielle évolue rapidement et s’accélère encore plus vite, ce qui est également indiqué par le nombre croissant de paramètres. Mais un modèle n’est bon que dans la mesure où il est appliqué.

Chez ursule.io, nous utilisons les LLM comme un outil d’optimisation du travail. Les NLP sont un levier pour aider les utilisateurs à écrire, créer, rechercher, trouver et découvrir ...

Nouvelles technologies