OpenAI n’en finit plus de surprendre. Sa dernière avancée porte sur la troisième itération de DALL-E construite nativement sur ChatGPT. Les utilisateurs peuvent ici s’appuyer sur le chatbot « comme partenaire de réflexion et d'affinement des invites ». Pour mémoire, la première version de DALL-E est sortie en janvier 2021, suivie par une deuxième en avril 2022. Un peu plus d'un an après celle-ci, OpenAI prouve donc que la conversion texte-image peut être perfectionnée. La société rapporte que « les systèmes modernes de conversion texte-image ont tendance à ignorer les mots ou les descriptions, obligeant les utilisateurs à apprendre l'ingénierie des requêtes (prompt engineering). Cette ultime version représente un pas en avant dans notre capacité à générer des images qui adhèrent exactement au texte que vous fournissez. Même avec la même invite, DALL-E 3 offre des améliorations significatives par rapport à DALL-E 2 » avec « plus de nuances et de détails que ses systèmes précédents ».

On note une nette amélioration entre les deux versions de DALL-E. (Crédit : OpenAI)

ChatGPT s’avèrera extrêmement pertinent lorsqu’une image générée par DALL-E 3 ne convient pas parfaitement. Pour la modifier et se rapprocher au mieux de l’idée que l’utilisateur s’en est faite, il suffira de demander à ChatGPT de la modifier en quelques mots seulement. Pour l’heure, DALL-E 3 est en phase de preview pour la recherche et sera disponible pour les clients ChatGPT Plus et Enterprise en octobre, via l'API et dans les laboratoires plus tard cet automne. OpenAI précise que « comme avec DALL-E 2, les images que vous créez avec DALL-E 3 vous appartiennent et vous n'avez pas besoin de notre autorisation pour les réimprimer, les vendre ou les commercialiser ».

Un focus sur la sécurité pour prévenir toute critique

L’entreprise se veut par ailleurs rassurante en ce qui concerne la sécurité. « Comme les versions précédentes, nous avons pris des mesures pour limiter la capacité de DALL-E 3 à générer du contenu violent, adulte ou haineux ». Les performances en matière de sécurité ont été améliorées, notamment dans des domaines à risque tels que la génération de personnalités publiques et les préjugés néfastes liés à la sur/sous-représentation visuelle, en partenariat avec les membres de sa Red Team (présentés par OpenAI comme des experts du domaine qui testent le modèle). Ces derniers viennent en renfort pour aider à éclairer les efforts d'évaluation et d'atténuation des risques dans les domaines de la propagande et la désinformation, ajoute la société.

En parallèle, des tests ont été réalisés en interne pour mieux détecter les images créées à l’aide de l’intelligence artificielle. « Nous expérimentons un classificateur de provenance (un nouvel outil interne qui peut nous aider à identifier si une image a été générée ou non par DALL-E 3) et espérons utiliser cet outil pour mieux comprendre les façons dont les images générées pourraient être utilisées ». OpenAI indique que d’autres précisions viendront sur le sujet prochainement. Enfin, précisons que cette troisième version est conçue pour décliner les demandes qui sollicitent une image à la manière d'un artiste vivant. Les créateurs peuvent désormais également retirer leurs images de la formation de ses futurs modèles de génération d'images.

Les images générées avec DALL-E 3 prouvent que la créativité n'a plus de limite grâce à un tel outil. (Crédit : OpenAI)