Table des matières
Introduction
Les outils d’intelligence artificielle (IA) générateurs d’images tels que Midjourney, Stable Diffusion et DALL-E 2 ont stupéfié par leur capacité à produire des images remarquables en quelques secondes seulement.
Pourtant, malgré leurs performances, ces générateurs d’images IA semblent rencontrer des difficultés lors de tâches aussi simples que l’écriture et le comptage. Comment se fait-il que ces outils, censés être si avancés en matière d’expression créative, éprouvent-ils des difficultés que même un élève de primaire pourrait surmonter ?
Pour comprendre cette disparité, il est important d’explorer les raisons sous-jacentes liées à la nature numérique complexe de l’IA et à ses limites en termes de capacités d’écriture et de comptage.
Les limites de l’IA en matière d’écriture
L’humain est capable de reconnaître facilement les symboles textuels tels que les lettres, les chiffres et les caractères, qu’ils soient écrits dans différentes polices ou styles d’écriture. De plus, nous pouvons produire du texte dans divers contextes et comprendre comment ce contexte peut influencer le sens du texte.
Les générateurs d’images IA actuels ne possèdent pas cette compréhension intrinsèque. Ils n’ont pas une véritable compréhension du sens des symboles textuels. Ces générateurs sont basés sur des réseaux de neurones artificiels entraînés sur de vastes ensembles de données d’images, à partir desquelles ils “apprennent” des associations et effectuent des prédictions.
Les combinaisons de formes présentes dans les images d’entraînement sont associées à différentes entités. Par exemple, deux lignes inclinées vers l’intérieur qui se rejoignent peuvent représenter la pointe d’un crayon ou le toit d’une maison.
Cependant, lorsqu’il s’agit de texte et de quantités, les associations doivent être extrêmement précises, car les moindres imperfections sont perceptibles. Notre cerveau peut tolérer de légères variations dans la représentation de la pointe d’un crayon ou du toit d’une maison, mais il en est autrement lorsqu’il s’agit de la façon dont un mot est écrit ou du nombre de doigts d’une main.
Du point de vue des modèles de conversion texte-image, les symboles textuels ne sont que des combinaisons de lignes et de formes. Étant donné que le texte peut revêtir de nombreux styles différents et que les lettres et les chiffres peuvent être utilisés de manière infinie, le modèle a souvent du mal à apprendre comment reproduire efficacement du texte.
La principale raison de cette difficulté réside dans le manque de données d’entraînement. Les générateurs d’images IA nécessitent beaucoup plus de données d’entraînement pour représenter avec précision le texte et les quantités que pour d’autres tâches.
La tragédie des mains pour l’IA
Des problèmes se posent également lorsqu’il s’agit d’objets plus petits nécessitant des détails complexes, comme les mains.
Dans les images d’entraînement, les mains sont souvent de petite taille, tiennent des objets ou sont partiellement dissimulées par d’autres éléments. Il devient alors difficile pour l’IA d’associer le terme “main” à la représentation exacte d’une main humaine comportant cinq doigts.
En conséquence, les mains générées par l’IA semblent souvent mal formées, comportent des doigts supplémentaires ou en moins, ou sont partiellement dissimulées par des objets tels que des manches ou des sacs à main.
Nous rencontrons un problème similaire lorsqu’il s’agit de quantités. Les modèles d’IA ne possèdent pas une compréhension claire des quantités, comme le concept abstrait de “quatre”.
Ainsi, un générateur d’images peut répondre à une consigne de “quatre pommes” en s’appuyant sur l’apprentissage de nombreuses images présentant différentes quantités de pommes, et produire une sortie avec une quantité incorrecte.
En d’autres termes, la grande diversité des associations dans les données d’entraînement a un impact sur la précision des quantités dans les résultats générés par l’IA.
Pour plus d’article : https://www.moussasoft.com/tutoriels-electroniques