OpenAI a récemment lancé GPT-4o, une version améliorée de son modèle de langage GPT-4. Elle offre de nouvelles perspectives tant pour les utilisateurs grand public que pour les développeurs et les entreprises.
Par K. A.
C ontrairement aux lancements précédents, OpenAI adopte une approche de déploiement très progressive pour GPT-4o. Initialement accessible via ChatGPT Plus, GPT-4o est également disponible pour les utilisateurs de la formule «Team» et le sera bientôt pour l'édition «Enterprise». En outre, ce nouveau modèle est accessible aux utilisateurs de la version gratuite de ChatGPT, ce qui ouvre la porte à une large adoption. Sur le plan de l'API, GPT-4o peut être exploité sur les endpoints Chat Completions, Assistants et Batch, avec une disponibilité dans le playground d'OpenAI ainsi que sur l'offre Azure OpenAI Service de Microsoft.
Ce qui fait la différence
OpenAI affirme que GPT-4o est plus rapide que GPT-4 Turbo pour générer du texte, une affirmation confirmée par plusieurs retours d'expérience utilisateurs. Les performances de GPT-4o en termes de traitement du texte, de raisonnement et de code seraient équivalentes à celles de GPT-4 Turbo. Cependant, GPT-4o se distingue particulièrement dans le traitement des langues autres que l'anglais, ainsi que dans les domaines de la vision et de l'audio. Il est important de noter que la base de connaissances de GPT4o s'arrête à octobre 2023, soit deux mois avant celle de GPT-4 Turbo. Néanmoins, cela n'entrave en rien ses capacités étendues. La fenêtre de contexte reste la même à 128k tokens, avec une sortie maximale de 4k tokens. Une autre amélioration notable réside dans l'efficacité des coûts: l'inférence avec GPT-4o coûte deux fois moins cher que celle avec GPT-4 Turbo, avec des tarifs de 5 dollars par million de tokens en entrée et 15 dollars par million de tokens en sortie.
Une ère multimodale
GPT-4o est décrit comme étant «nativement multimodal», capable de traiter une variété de modes d'entrée, y compris la voix, le texte et les images. OpenAI prévoit de lancer la fonctionnalité de traitement de la vidéo en temps réel, bien que cette capacité soit pour l'instant limitée à la division de vidéos en séquences d'images. L'entreprise souligne que des travaux supplémentaires sont nécessaires sur l'infrastructure, le surentraînement et la sécurité avant de rendre cette fonctionnalité largement disponible.
Un essai de ces modalités est prévu en cercle restreint (version alpha) sur ChatGPT Plus et sur l'API, avec un délai de mise à disposition compté en mois. GPT-4o intègre les dernières capacités de la brique Advanced Data Analysis (anciennement Code Interpreter), ce qui permet à ChatGPT d'exécuter des opérations complexes telles que la détection et la correction d'anomalies, l'agrégation et l'intégration de données, ainsi que l'analyse statistique et temporelle. Le modèle peut créer des tableaux et des graphiques interactifs en utilisant des bibliothèques comme pandas et Matplotlib. En termes de traitement vocal, et contrairement aux modèles précédents qui utilisaient des réseaux distincts pour la reconnaissance et la synthèse vocales, GPT-4o intègre un unique réseau de neurones pour traiter tous les types de contenus.
Contexte concurrentiel
Le lancement de GPT-4o est survenu à un moment stratégique, juste avant la conférence Google I/O, où Google a dévoilé de nouveaux produits d'IA, notamment dans le cadre de son projet Gemini. Sam Altman, le PDG d'OpenAI, a décrit GPT-4o comme une étape importante dans l'évolution de la vision de l'entreprise. Initialement axée sur la création d'avantages pour le monde, cette vision a évolué vers une approche plus pragmatique, centrée sur la mise à disposition des modèles d'IA via des API payantes. Lors de la démonstration en direct de GPT-4o, le modèle a impressionné par sa capacité à interagir de manière naturelle avec les utilisateurs, traitant des données multimodales telles que l'audio, la vidéo et le texte en temps réel.
Parmi les fonctionnalités mises en avant, on peut citer la résolution de problèmes mathématiques complexes, la reconnaissance des émotions faciales, la génération de contenu audio et la traduction de conversations en temps réel. Avec des améliorations notables en termes de vitesse, de coût et de capacités de traitement des langues et des données, GPT4o est bien positionné pour être adopté par un large éventail d'utilisateurs, des particuliers aux grandes entreprises. En fin de compte, l'avenir de ces technologies dépendra de leur intégration réussie dans divers secteurs, offrant des possibilités sans précédent pour l'interaction entre les machines et les humains.