OpenAI vient de franchir une nouvelle étape dans l'évolution de l'intelligence artificielle avec le lancement d'Operator, son tout premier agent IA autonome. Cette nouvelle technologie, annoncée le 23 janvier 2025, promet de révolutionner notre façon d'interagir avec le web en automatisant des tâches complexes grâce à un nouveau modèle baptisé Computer-Using Agent (CUA). L'IA va devenir de plus en plus un assistant personnel, et l'approche d'OpenAI va dans ce sens.

Un agent IA qui voit et agit comme un humain

Le cœur d'Operator repose sur le modèle CUA, qui combine les capacités de vision de GPT-4o avec un système avancé d'apprentissage par renforcement. Cette technologie permet à l'agent de "voir" l'écran via des captures d'écran et d'interagir avec les interfaces web exactement comme le ferait un utilisateur humain : en cliquant, en tapant du texte et en naviguant de manière autonome.



Les performances d'Operator sont déjà impressionnantes, avec un taux de réussite de 87% sur le benchmark WebVoyager pour les tâches web courantes. Le système excelle particulièrement dans les actions répétitives comme la création de listes de courses ou la gestion de playlists. OpenAI a également noué des partenariats stratégiques avec des acteurs majeurs comme Booking.com, Ebay et Uber pour optimiser l'expérience utilisateur sur leurs plateformes. Ce n'est pas le premier agent IA — Google et Anthropic on investi la technologie bien avant — mais il s'agit vraisemblablement du plus efficace et intégré.



En clair, l'IA d'OpenAI pourrait être capable de réserver des hôtels ou de commander de la nourriture à partir d'instructions précises sans aucune intervention de l'utilisateur. Avec une compréhension complète du contexte, ce système pourrait donner lieu à un véritable avènement d'un assistant personnel IA qui nous connait et agit de manière ultra fine et contextuelle. C'est déjà la démarche d'Apple par exemple, qui souhaite s'adapter à votre vie numérique sur l'iPhone pour mieux effectuer des tâches avec Siri.

Sécurité et limitations : une approche prudente

Pour cette première version, OpenAI a choisi une approche prudente en matière de sécurité. L'agent fonctionne dans un environnement virtuel contrôlé et requiert systématiquement une validation humaine pour les actions sensibles comme les paiements ou l'envoi d'emails. Des mesures anti-jailbreak et anti-injection de prompts ont également été implémentées. Cependant, le système présente encore certaines limitations. Il peine notamment avec les interfaces complexes comme les tableaux et les calendriers, et affiche un taux de réussite de seulement 40% pour l'édition de texte complexe



Pour l'instant, Operator n'est accessible qu'aux abonnés ChatGPT Pro (200$/mois) aux États-Unis, via operator.chatgpt.com. OpenAI prévoit d'étendre progressivement l'accès aux autres niveaux d'abonnement et d'intégrer ces fonctionnalités directement dans ChatGPT. Sam Altman, PDG d'OpenAI, a notamment précisé que le déploiement en Europe prendrait plus de temps, probablement en raison des régulations locales et du DMA.



