La semaine dernière, OpenAI a dévoilé sa technologie de clonage vocal Voice Engine, qui a suscité des réactions diverses allant de l’enthousiasme au souci quant à ses possibles dangers.
Cette technologie permet à une machine d’apprendre à parler avec la voix de n’importe qui après seulement 15 secondes d’entraînement.
Par K.A
Que savons-nous sur Voice Engine d’OpenAI ? En effet, OpenAI développe des modèles à travers divers médias, de texte à vidéo, qui peuvent s’entraîner sur des exemples pour générer du contenu «original» selon une requête. Ces modèles d’IA générative alimentent ses produits grand public, notamment GPT pour le texte, DALL-E pour les images et Whisper pour la transcription audio en texte.
Voice Engine est un modèle en développement qui peut s’entraîner sur la voix d’un individu, puis lire n’importe quel texte en utilisant cette voix. Imaginez Siri ou Google Assistant lisant le contenu d’une page web, mais avec votre voix, ou celle de n’importe qui d’autre.
Cependant, nous disposons de peu d’informations pour juger des capacités de Voice Engine, excepté les cinq exemples fournis par OpenAI. Bien qu’ils semblent impressionnants, ils représentent probablement des scénarios idéaux et non des résultats typiques. Les technologies similaires ont tendance à sonner très précisément dans certains cas, et creux ou robotiques dans d’autres.
Dans son blog, OpenAI a déclaré que le modèle est testé par un petit nombre de partenaires de confiance dans des conditions strictement contrôlées, et qu’il n’a pas encore décidé quand – ou même si – il sera disponible pour le public. Il a fourni ces détails dans l’espoir de lancer une conversation sur l’utilisation responsable de la technologie.
Le premier danger auquel on pense souvent en découvrant cette technologie est la désinformation, et c’est une préoccupation légitime. En supposant que cela fonctionne aussi bien qu’OpenAI le prétend, un acteur malveillant pourrait prendre seulement 15 secondes d’un discours de n’importe qui et créer un enregistrement d’eux, disant presque n’importe quoi. Pour les personnes en vue, comme les célébrités et les politiciens, elles pourraient trouver toute l’entrée d’entraînement dont elles ont besoin avec une simple recherche sur Google.
Combinée au modèle de génération vidéo de OpenAI, Sora, elles pourraient concevoir une vidéo entièrement fausse avec des dialogues. Même si le résultat n’est pas parfait, ou sonne un peu étrange, la technologie pourrait toujours être utilisée pour générer une désinformation efficace.
Une autre préoccupation est l’arnaque. Mais bien que les escrocs sautent toujours sur n’importe quel avantage technologique, je ne suis pas convaincu que Voice Engine serait une énorme aubaine pour eux.
Théoriquement, les escrocs pourraient utiliser la nouvelle technologie pour masquer des accents, parler naturellement n’importe quelle langue pour ressembler à un local, mais il est peu clair comment ils pourraient le faire de manière fluide dans une conversation en temps réel. Ils pourraient également utiliser un clone vocal pour lire le texte généré par un chatbot, automatisant les escroqueries qui incitent les gens à divulguer leurs informations personnelles. Mais cela est déjà possible : l’aspect révolutionnaire de Voice Engine est de faire en sorte que le bot sonne comme une personne spécifique.
Quelle fonction légitime pourrait-elle remplir ?
Malgré les préoccupations, cette technologie a le potentiel de faire le bien. Convertir n’importe quel texte en discours humain a un avantage évident en termes d’accessibilité, tout comme la traduction instantanée. À ce jour, les informations du monde existent largement dans diverses langues, avec l’accès déterminé par la langue ou la capacité de lire, voir ou entendre d’une personne. L’IA pourrait rendre toutes ces informations disponibles à tous.
Voice Engine d’OpenAI présente également certains avantages potentiels uniques. Par exemple, toute personne qui rédige du contenu pourrait entraîner un modèle de sa voix en quelques secondes, puis rendre disponible une version audio de son travail à toute personne qui préfère le consommer de cette manière. Le résultat pourrait être lu avec émotion dans leur propre voix, plutôt que par une voix robotique générique.
De plus, le contenu oral pourrait être traduit dans n’importe quelle langue mais toujours lu avec la voix de l’auteur original. Cela pourrait être utilisé pour du contenu qui était initialement oral, par exemple pour rendre les commentaires télévisés, les discours publics, les vidéos ou les podcasts disponibles dans toutes les langues avec peu de travail supplémentaire.
Bien que les préoccupations quant à l’utilisation potentielle abusive de la technologie Voice Engine soient légitimes, il est également important de reconnaître les avantages qu’elle pourrait apporter en termes d’accessibilité et de diversification de l’information. Un déploiement responsable et contrôlé est essentiel pour minimiser les risques potentiels et garantir une utilisation éthique de cette technologie.