OpenAI releases Sora 2, a next‑gen video and audio AI plus a cameo-based social app with safety controls.

OpenAI a annoncé le lancement de Sora 2, un modèle d’intelligence artificielle avancé capable de générer des vidéos et des pistes audio d’un réalisme sans précédent, accompagné d’une application sociale innovante, également nommée Sora. Selon l’entreprise, cette nouvelle version surpasse largement les systèmes antérieurs en termes de précision physique, de réalisme et de contrôle.
Dans un communiqué publié sur son blog, OpenAI a expliqué que Sora 2 permet de produire des scènes synchronisées comprenant dialogues, effets sonores et environnements complexes, tout en respectant les lois de la physique. Cette avancée a été comparée aux percées réalisées dans les premiers modèles de langage à grande échelle. Les exemples partagés par OpenAI montrent le modèle générant des séquences d’athlétisme, des figures de skateboard et de gymnastique, ou encore des scènes cinématographiques complexes, en préservant la cohérence des mouvements et la permanence des objets.
" Sora 2 peut accomplir des choses exceptionnellement complexes, et dans certains cas tout simplement impossibles pour les modèles de génération vidéo précédents ", a écrit OpenAI. L’entreprise a également souligné une capacité améliorée à modéliser autant les échecs que les réussites : par exemple, si un joueur de basket rate un tir dans une vidéo générée par Sora 2, le ballon rebondira contre le panneau au lieu de "téléporter" directement dans le panier, comme cela pouvait être observé avec des systèmes antérieurs.
Outre ses capacités vidéo, Sora 2 intègre également des effets sonores, des paysages sonores de fond et des dialogues avec un haut degré de réalisme. Le modèle prend en charge une large gamme de styles visuels, allant de photoréaliste à cinématographique, en passant par l’anime. Selon OpenAI, il est également possible d’insérer des éléments du monde réel, tels qu’une personne, un animal ou un objet enregistré, dans des scènes générées tout en respectant fidèlement leur apparence et leur voix.
L’application Sora, disponible dans un premier temps sur iOS par invitation aux États-Unis et au Canada, propose une fonctionnalité appelée " Cameos ". Les utilisateurs peuvent créer un enregistrement unique de leur image et voix afin de vérifier leur identité, ce qui leur permet ensuite d’intégrer leur propre avatar dans les scènes générées par l’application. Cette fonctionnalité permet également de partager l’accès à son cameo avec des amis, de révoquer cet accès à tout moment, et de visionner ou supprimer les vidéos incluant leur image.
OpenAI a insisté sur les outils de sécurité intégrés à Sora 2, notamment le contrôle d'accès des cameos, qui est entièrement géré par l’utilisateur. L’app vise à promouvoir la création plutôt que la consommation passive. Les algorithmes de recommandation peuvent être personnalisés en langage naturel, et les utilisateurs sont régulièrement sondés sur leur bien-être avec des options pour ajuster leur fil d'actualité. Des limites par défaut sur le temps d’écran pour les adolescents, des contrôles parentaux via ChatGPT, ainsi que des modérateurs humains ont également été déployés pour prévenir les abus et limiter le harcèlement.
Cependant, des experts soulignent les risques inhérents à la synthèse vidéo réaliste. " La possibilité de révoquer un cameo est importante, mais le contrôle d'accès peut être abusé ou contourné, et les plateformes doivent investir massivement dans la détection, l'examen et la réparation ", a déclaré un chercheur en politique technologique ayant analysé les documents d’OpenAI.
OpenAI a annoncé que Sora 2 serait initialement accessible gratuitement avec des limites généreuses. Une version premium, appelée " Sora 2 Pro ", sera disponible pour les abonnés à ChatGPT Pro. L’entreprise envisage également de proposer Sora 2 via une API, permettant ainsi aux développeurs d’intégrer cette technologie à leurs propres projets.
En dépit de ces innovations impressionnantes, OpenAI a reconnu les défis posés par la création de contenu synthétique réaliste, notamment en matière de harcèlement, de fraude et de manipulation politique. Les cadres juridiques pour réguler ces usages restent encore limités dans de nombreux pays.
Avec Sora 2, OpenAI semble avoir franchi un cap dans l’univers de la création audiovisuelle générative, mais les questions de sécurité et d’éthique entourant de telles avancées technologiques continueront de susciter le débat.