Intelligence artificielle (IA)

Falcon 180B le Nouveau Modèle de Langage Open Source avec 180 Milliards de Paramètres

Falcon 180B le Nouveau Modèle de Langage Open Source avec 180 Milliards de Paramètres

Falcon 180B est un modèle de langage à source ouverte exceptionnel doté de 180 milliards de paramètres, formé sur une montagne de données. Cette nouvelle puissance surpasse de nombreux modèles de langage à source ouverte existants sur plusieurs aspects.

Falcon 180B : Une Prouesse d’IA à Source Ouverte

Annoncé dans un billet de blog par la communauté Hugging Face AI, Falcon 180B est désormais disponible sur Hugging Face Hub. L’architecture de ce modèle s’appuie sur la série précédente de LLM open source Falcon, en exploitant des innovations telles que l’attention multiquery pour atteindre 180 milliards de paramètres, formés sur 3,5 billions de tokens.

Il s’agit de la période de préformation la plus longue pour un modèle open source à ce jour. Pour atteindre de tels résultats, pas moins de 4 096 GPU ont été utilisés simultanément, totalisant environ 7 millions d’heures-GPU, avec Amazon SageMaker pour l’entraînement et le raffinement.

Pour mettre en perspective la taille de Falcon 180B, ses paramètres mesurent 2,5 fois plus que le modèle LLaMA 2 de Meta. LLaMA 2 était précédemment considéré comme le modèle LLM open source le plus performant après son lancement plus tôt cette année, avec 70 milliards de paramètres formés sur 2 billions de tokens.

Performances Exceptionnelles

Falcon 180B surpasse LLaMA 2 et d’autres modèles à la fois en termes d’échelle et de performances sur un éventail de tâches de traitement du langage naturel (NLP). Il se classe à la 68,74ème place sur le tableau des modèles à accès ouvert et rivalise presque avec les modèles commerciaux tels que PaLM-2 de Google sur des évaluations comme le benchmark HellaSwag.

Plus précisément, Falcon 180B égale ou dépasse PaLM-2 Medium de Google sur des benchmarks couramment utilisés, notamment HellaSwag, LAMBADA, WebQuestions, Winogrande, et bien d’autres. Cela représente des performances exceptionnelles pour un modèle open source, même en comparaison avec des solutions développées par les géants de l’industrie.

Comparé à ChatGPT, le modèle est plus puissant que la version gratuite mais légèrement moins performant que le service payant “plus”.

Le Futur de Falcon 180B

La sortie de Falcon 180B marque une avancée significative dans le développement rapide des LLM. Au-delà de l’augmentation du nombre de paramètres, des techniques telles que LoRAs, la randomisation des poids et Perfusion de Nvidia ont permis une formation beaucoup plus efficace de ces grands modèles d’IA.

Avec Falcon 180B désormais librement accessible sur Hugging Face, les chercheurs anticipent que le modèle bénéficiera de gains supplémentaires grâce aux améliorations futures développées par la communauté. Toutefois, sa démonstration de capacités avancées en traitement du langage naturel dès sa sortie constitue un développement passionnant pour l’IA open source.

Conclusion

Falcon 180B apporte une avancée majeure dans le domaine des modèles de langage à source ouverte. Avec des performances remarquables et des perspectives d’amélioration continues, il s’impose comme un acteur incontournable de l’IA, démontrant que l’innovation dans ce domaine ne montre aucun signe de ralentissement.