Ce jeudi 23 janvier 2025, OpenAI a publié un aperçu de la recherche « Operator », un outil d’automatisation Web qui utilise un nouveau modèle d’IA appelé Computer-Using Agent (CUA) pour contrôler les ordinateurs via une interface visuelle. Le système effectue des tâches en visualisant et en interagissant avec des éléments à l’écran tels que des boutons et des champs de texte, de la même manière qu’un humain le ferait.
L’opérateur est disponible dès aujourd’hui pour les abonnés du plan ChatGPT Pro à 200 $ par mois chez operator.chatgpt.com. La société prévoit de s’étendre aux utilisateurs Plus, Team et Enterprise plus tard. OpenAI a l’intention d’intégrer ces capacités directement dans ChatGPT et de publier ultérieurement CUA via son API pour les développeurs.
L’opérator regarde le contenu à l’écran pendant que vous utilisez votre ordinateur et exécute des tâches via des entrées simulées au clavier et à la souris. L’agent d’utilisation de l’ordinateur traite les captures d’écran pour comprendre l’état de l’ordinateur, puis prend des décisions concernant le clic, la saisie et le défilement en fonction de ses observations.
La publication d’OpenAI suit celle d’autres entreprises technologiques qui se lancent dans ce que l’on appelle souvent des systèmes d’IA « agentiques », qui peuvent prendre des mesures au nom d’un utilisateur. Google a annoncé le projet Mariner en décembre 2024, qui effectue des tâches automatisées via le navigateur Chrome, et deux mois plus tôt, en octobre 2024, Anthropic a lancé un outil d’automatisation Web appelé « Computer Use » axé sur les développeurs qui peuvent contrôler le curseur de la souris d’un utilisateur et effectuer des actions sur un ordinateur.
« L’interface de l’opérateur ressemble beaucoup à la démo d’Anthropic sur l’utilisation de l’ordinateur Claude d’octobre », a écrit le chercheur en IA Simon Willison sur son blog, « même jusqu’à l’interface avec un panneau de discussion à gauche et une interface visible avec laquelle on interagit à droite. »
Observez et agissez
Pour utiliser votre PC comme vous le feriez, l’agent d’utilisation de l’ordinateur fonctionne en plusieurs étapes. Tout d’abord, il capture des captures d’écran pour surveiller votre écran, puis analyse ces images (à l’aide des capacités de vision de GPT-4o avec un apprentissage par renforcement supplémentaire) pour traiter les données brutes des pixels. Ensuite, il détermine les actions à entreprendre, puis effectue des entrées virtuelles pour contrôler l’ordinateur, rapporte Force Afrique.
Cette conception de boucle itérative permettrait au système de récupérer des erreurs et de gérer des tâches complexes dans différentes applications.
Pendant qu’il fonctionne, Operator affiche une fenêtre de navigateur miniature de ses actions.
Cependant, la technologie derrière Operator est encore relativement nouvelle et loin d’être parfaite. Le modèle serait plus performant dans les tâches Web répétitives telles que la création de listes de courses ou de listes de lecture. Il a plus de mal avec les interfaces inconnues comme les tables et les calendriers, et se débrouille mal avec l’édition de texte complexe (avec un taux de réussite de 40%), selon les données de test internes d’OpenAI.
OpenAI a rapporté que le système a atteint un taux de réussite de 87% sur le benchmark WebVoyager, qui teste des sites en direct comme Amazon et Google Maps. Sur WebArena, qui utilise des sites de test hors ligne pour la formation des agents autonomes, le taux de réussite d’Operator est tombé à 58,1 %. Pour les tâches du système d’exploitation informatique, CUA a établi un record apparent de 38,1 % de réussite sur le benchmark OSWorld, surpassant les modèles précédents mais restant en deçà des performances humaines à 72,4 %.
Avec cet aperçu de recherche imparfait, OpenAI espère recueillir les commentaires des utilisateurs et affiner les capacités du système. L’entreprise reconnaît que CUA ne fonctionnera pas de manière fiable dans tous les scénarios, mais prévoit d’améliorer sa fiabilité dans un plus large éventail de tâches grâce à des tests utilisateurs.
Problèmes de sécurité et de confidentialité
Pour tout modèle d’IA capable de voir comment vous utilisez votre ordinateur et même d’en contrôler certains aspects, la confidentialité et la sécurité sont très importantes. OpenAI affirme avoir intégré plusieurs contrôles de sécurité dans Operator, nécessitant la confirmation de l’utilisateur avant d’effectuer des actions sensibles telles que l’envoi d’e-mails ou les achats. L’opérateur a également des limites sur ce qu’il peut parcourir, définies par OpenAI. Il ne peut pas accéder à certaines catégories de sites Web, y compris les jeux d’argent et de hasard et le contenu pour adultes.
Traditionnellement, les modèles d’IA basés sur la technologie Transformer de type grand modèle de langage comme Operator ont été relativement faciles à tromper avec des jailbreaks et des injections rapides.
Pour détecter les tentatives de subversion d’Operator, qui pourraient hypothétiquement être intégrées dans les sites Web que le modèle d’IA parcourt, OpenAI dit avoir mis en place des systèmes de modération et de détection en temps réel. OpenAI rapporte que le système a reconnu tous les cas sauf un de tentatives d’injection rapide lors d’une première session interne de red-teaming.
Cependant, M. Willison, qui couvre fréquemment les questions de sécurité de l’IA, n’est pas convaincu qu’Operator puisse rester en sécurité, surtout lorsque de nouvelles menaces émergent. « Je suis sceptique », a-t-il écrit dans son billet de blog. « J’imagine que nous verrons toutes sortes de nouvelles attaques réussies de type injection rapide contre ce modèle une fois que le reste du monde commencera à l’explorer. »
Comme le souligne Willison, OpenAI reconnaît ces risques dans sa documentation sur les cartes système : « Malgré les efforts proactifs de test et d’atténuation, certains défis et risques subsistent en raison de la difficulté de modéliser la complexité des scénarios du monde réel et la nature dynamique des menaces adverses. »
Et qu’en est-il de la confidentialité ? Étant donné que toutes les informations que l’opérateur voit sur ce qui se trouve sur votre écran sont envoyées sur Internet aux serveurs cloud d’OpenAI par le biais de captures d’écran périodiques, vous faites beaucoup confiance à OpenAI.
OpenAI affirme avoir mis en place plusieurs contrôles de confidentialité : les utilisateurs peuvent choisir de ne pas que leurs données soient utilisées pour l’entraînement du modèle via les paramètres de ChatGPT, supprimer toutes les données de navigation en un clic dans les paramètres de l’opérateur et se déconnecter de tous les sites simultanément. Lorsque les utilisateurs doivent saisir des informations sensibles telles que des mots de passe ou des informations de paiement, un « mode de prise de contrôle » s’active lorsque l’opérateur cesse de collecter des captures d’écran.
Malgré ces précautions, Willison a fourni ses propres conseils en matière de confidentialité à l’opérateur sur son blog : « Démarrez une nouvelle session pour chaque tâche que vous sous-traitez à l’opérateur afin de vous assurer qu’il n’a pas accès à vos informations d’identification pour les sites que vous avez utilisés via l’outil dans le passé. Si vous lui demandez de dépenser de l’argent en votre nom, laissez-le passer à la caisse, puis fournissez-lui vos informations de paiement et effacez la session immédiatement après.
Pendant qu’il fonctionne, Operator affiche une fenêtre de navigateur miniature de ses actions.
Cependant, la technologie derrière Operator est encore relativement nouvelle et loin d’être parfaite. Le modèle serait plus performant dans les tâches Web répétitives telles que la création de listes de courses ou de listes de lecture. Il a plus de mal avec les interfaces inconnues comme les tables et les calendriers, et se débrouille mal avec l’édition de texte complexe (avec un taux de réussite de 40%), selon les données de test internes d’OpenAI.
OpenAI a rapporté que le système a atteint un taux de réussite de 87% sur le benchmark WebVoyager, qui teste des sites en direct comme Amazon et Google Maps. Sur WebArena, qui utilise des sites de test hors ligne pour la formation des agents autonomes, le taux de réussite d’Operator est tombé à 58,1 %. Pour les tâches du système d’exploitation informatique, CUA a établi un record apparent de 38,1 % de réussite sur le benchmark OSWorld, surpassant les modèles précédents mais restant en deçà des performances humaines à 72,4 %.
Avec cet aperçu de recherche imparfait, OpenAI espère recueillir les commentaires des utilisateurs et affiner les capacités du système. L’entreprise reconnaît que CUA ne fonctionnera pas de manière fiable dans tous les scénarios, mais prévoit d’améliorer sa fiabilité dans un plus large éventail de tâches grâce à des tests utilisateurs.
Problèmes de sécurité et de confidentialité
Pour tout modèle d’IA capable de voir comment vous utilisez votre ordinateur et même d’en contrôler certains aspects, la confidentialité et la sécurité sont très importantes. OpenAI affirme avoir intégré plusieurs contrôles de sécurité dans Operator, nécessitant la confirmation de l’utilisateur avant d’effectuer des actions sensibles telles que l’envoi d’e-mails ou les achats. L’opérateur a également des limites sur ce qu’il peut parcourir, définies par OpenAI. Il ne peut pas accéder à certaines catégories de sites Web, y compris les jeux d’argent et de hasard et le contenu pour adultes.
Traditionnellement, les modèles d’IA basés sur la technologie Transformer de type grand modèle de langage comme Operator ont été relativement faciles à tromper avec des jailbreaks et des injections rapides.
Pour détecter les tentatives de subversion d’Operator, qui pourraient hypothétiquement être intégrées dans les sites Web que le modèle d’IA parcourt, OpenAI dit avoir mis en place des systèmes de modération et de détection en temps réel. OpenAI rapporte que le système a reconnu tous les cas sauf un de tentatives d’injection rapide lors d’une première session interne de red-teaming.
En savoir plus sur Force Afrique
Subscribe to get the latest posts sent to your email.
Un commentaire