Le modèle ChatGPT GPT-4o génère des images avec des étiquettes lisibles.

OpenAI a introduit une importante mise à jour de GPT-4o qui permet de générer des images avec un texte incroyablement précis. Cette nouvelle fonctionnalité permet aux utilisateurs de créer des images détaillées et de haute qualité avec des messages vocaux et de les ajuster au cours du processus afin de reproduire avec précision leur signification.
Voici ce que nous savons
Il semble que nous puissions désormais oublier les inscriptions illisibles ou les symboles étranges qui apparaissaient souvent dans les anciens modèles d'IA.
Contrairement aux méthodes traditionnelles de génération d'images, qui consistent à améliorer une seule requête, GPT-4o utilise une approche dynamique. Vous fournissez d'abord un indice de base, tel que "chat", puis vous pouvez engager un dialogue avec le modèle pour ajouter les détails souhaités, tels qu'un chapeau ou un monocle de détective.








OpenAI a montré comment les utilisateurs peuvent progressivement créer des scènes en combinant des éléments provenant de différentes images. Le modèle fait preuve d'une grande précision dans la reproduction de textes sur des panneaux ou des objets, ce qui constitue une avancée significative par rapport aux modèles précédents qui ne parvenaient pas à reproduire correctement des mots écrits.
Le GPT-4o permet également de travailler avec des photos en y apportant des modifications. Le modèle peut gérer de 10 à 20 objets dans une scène, alors que les autres modèles s'arrêtent souvent à 5-8.




Cependant, tout n'est pas parfait : il y a quelques inconvénients, tels que le recadrage par le bas, des incompréhensions avec des textes non latins et des problèmes avec plus de 20 objets. Néanmoins, la nouvelle fonctionnalité offre une précision et une flexibilité qui ouvrent de nouvelles possibilités aux concepteurs et aux créatifs.
Source : OpenAI, Gizmochina : OpenAI, Gizmochina