January 25, 2025

Operator d'OpenAI : l'agent IA qui révolutionne la façon dont nous utilisons le Web ‍

Imaginez un monde où votre liste de tâches serait gérée sans que vous n'ayez à lever le petit doigt, de la réservation de voyages à la commande des courses, tous gérés par un Assistant IA. C'est désormais une réalité grâce à Operator, un agent d'IA révolutionnaire.

‍

Operator va au-delà du simple chatbot, naviguant indépendamment sur le Web pour effectuer tâches, marquant une transition significative par rapport à la gestion passive de recherche d'informations pour être actif dans la gestion des tâches. Cette innovation n'est pas uniquement portée par OpenAI, mais est suivie avec attention dans les laboratoires d'entreprises telles que Google ou Meta.

‍

Operator est actuellement disponible aux États-Unis pour les abonnés Chat GPT Pro, avec bien sûr le projet d'étendre l'accès à d'autres niveaux et de l'intégrer à ChatGPT. Sa technologie sous-jacente, CUA, sera également publiée via une API pour les développeurs.

‍

Dans cet article, Dirox abordera les fonctionnalités d'Operator, la technologie qui le fait fonctionner, ses limitations, et son impact sur l'industrie et notre quotidien.

‍

‍

I. Comment fonctionne Operator : dévoilement de l'agent utilisateur d'ordinateur (CUA)

‍

Le cerveau

Au cœur d'Operator se trouve le Computer-Using Agent (CUA), le modèle d'IA sophistiqué qui alimente ses actions. Il ne s'agit pas simplement d'une mise à niveau ; il s'agit d'une réinvention complète, s'appuyant sur la base solide des capacités avancées de vision et de raisonnement de GPT-4o, améliorées par l'apprentissage par renforcement.

‍

Les yeux

Contrairement aux systèmes traditionnels qui reposent sur le code, le CUA peut « voir » le monde numérique comme le font les humains. Il y parvient en effectuant des prises de captures d'écran de pages Web, qui sont ensuite traitées pour analyser les données à partir des pixels bruts. Cela permet à CUA de comprendre l'interface utilisateur graphique (GUI) et de reconnaître des éléments tels que les boutons, les menus et les champs de texte avec lesquels les utilisateurs interagissent au quotidien. C'est comme donner à l'IA une paire d'yeux capables de comprendre le langage visuel du Web.

‍

Les mains

Une fois qu'il a « vu » la page Web, CUA interagit avec celle-ci via les entrées des souris et clavier virtuels. Il clique sur des boutons, navigue dans les menus déroulants et remplit des champs de texte, tout comme le ferait une vraie personne, en exécutant des tâches avec une dextérité d'expert !

‍

Processus itératif

Le CUA n'agit pas qu'une seule fois ; il fonctionne dans une boucle itérative continue de perception, raisonnement et action. Il scanne l'écran, décide d'une action, exécute cette action, scanne à nouveau l'écran, etc. Cela permet à CUA de s'adapter de manière dynamique à l'environnement changeant d'une page Web. S'il fait une erreur ou rencontre un problème inattendu, le CUA peut revenir en arrière et se corriger lui-même, en utilisant ses capacités de raisonnement pour revenir sur la bonne voie.

‍

a flowchart showing the process of a CUA system interpreting input as text or screenshot, generating actions, and applying commands to a virtual machine

‍

Aucune API requise

L'une des innovations les plus importantes de CUA est sa capacité à fonctionner sans avoir besoin d'interfaces de programmation d'applications (API). Les modèles d'IA traditionnels s'appuient généralement sur des API pour accéder à des logiciels spécifiques, ce qui limite leur portée et leur utilité. CUA contourne cette limitation en interagissant directement avec le front-end des sites Web comme un utilisateur humain, ouvrant l'accès à une vaste gamme de sites Web auparavant inaccessibles.

‍

Répartition des tâches

Les tâches complexes ne sont pas un problème pour CUA, qui est formée pour les décomposer en étapes plus petites et plus faciles à gérer. En cas de blocage, il utilise un processus de « chaîne de pensée » pour réévaluer la situation et adapter son approche, en utilisant des techniques similaires aux modèles de raisonnement d'OpenAI. Cela lui permet de gérer des flux de travail complexes en plusieurs étapes et de naviguer efficacement sur des pages Web complexes.

‍

Fonctionnement cloud unique

Contrairement à d'autres outils, Operator ne s'exécute pas dans votre propre navigateur Web. Au lieu de cela, il fonctionne sur les serveurs d'OpenAI, exécutant des tâches via un navigateur distant. Cela lui permet de gérer plusieurs tâches simultanément, offrant à l'utilisateur une expérience plus fluide et plus efficace que s'il était exécuté sur la machine locale de l'utilisateur.

‍

II. Fonctionnalités d'Operator : que peut-il faire ?

Operator est bien plus qu'un simple outil ; c'est un assistant numérique polyvalent capable de gérer un large éventail de tâches, de vous libérer du temps et de simplifier votre vie numérique. Sa capacité à interagir avec le Web comme un humain ouvre de nombreuses possibilités d'automatisation.

‍

Automatisation des tâches

L'opérateur peut automatiser de nombreuses tâches, notamment :

Planification des voyages : Il peut réserver des vols, des hôtels et même des campings, en s'occupant de tous les détails pour que vous puissiez vous concentrer sur votre voyage.
Réservations de restaurants : Faire des réservations de restaurant est un jeu d'enfant avec Operator, qui peut naviguer sur les sites de réservation et trouver la table qui vous convient le mieux.
Achats en ligne : Qu'il s'agisse de commander des produits d'épicerie, de trouver le cadeau parfait ou d'acheter des articles de tous les jours, Operator peut gérer efficacement vos besoins d'achat en ligne.
Remplissage de formulaires : Dites adieu au remplissage fastidieux des formulaires ; Operator peut saisir automatiquement des informations, ce qui vous permet d'économiser du temps et des efforts.
Calendrier et rappels : Operator peut vous aider à gérer votre emploi du temps en ajoutant des rappels. Bien qu'il ait actuellement des limites dans la gestion des calendriers, celles-ci seront corrigées à l'avenir.
Création de listes : qu'il s'agisse de compiler des listes de courses ou de créer des listes de lecture, Operator peut créer des listes en fonction de vos préférences et de vos exigences.

‍

Interaction avec l'utilisateur

Bien qu'Operator soit conçu pour effectuer des tâches de manière indépendante, vous gardez le contrôle. Vous pouvez suivre sa progression et, à tout moment, vous pouvez prendre vous-même le contrôle du navigateur. Cela vous permet d'intervenir si nécessaire ou si vous préférez saisir vous-même des informations sensibles telles que vos informations de connexion ou vos informations de paiement. En outre, Operator est conçu pour vous demander votre confirmation avant de finaliser les actions susceptibles d'avoir des effets secondaires externes, comme passer une commande ou envoyer un e-mail.

‍

Exemples pratiques

L'utilité d'Operator peut être illustrée dans de nombreux exemples concrets. Par exemple :

Soirées hebdomadaires : Vous pouvez demander à Operator de trouver une liste de cinq restaurants proposant des tables pour deux le jeudi soir, vous évitant ainsi d'avoir à rechercher et à réserver chaque semaine.
Achats rapides : Vous pouvez rapidement prendre une photo de votre liste d'épicerie manuscrite et demander à Operator d'ajouter les articles à votre panier en ligne, ce qui vous permet d'économiser du temps et des efforts.
Gestion des tâches : Vous pouvez utiliser Operator pour définir des rappels et programmer des invitations, en vous assurant de ne pas oublier les tâches essentielles.

‍

Operator can be instructed to search for campsites in Yosemite with good picnic tables. — L'opérateur peut être invité à rechercher des campings à Yosemite dotés de bonnes tables de pique-nique. | Source : Open AI

‍

Démonstration d'Operator : comment l'utiliser ?

Pour vraiment comprendre le potentiel d'Operator, examinons quelques exemples de la manière dont il pourrait être utilisé.

‍

Imaginez que vous deviez trouver le produit le plus vendu depuis le panneau d'administration d'une boutique en ligne. Vous pouvez demander à l'opérateur quelque chose comme :

‍

Initialisez l'ordinateur et résolvez la tâche suivante : Quel est le produit le plus vendu en 2022. Les sites Web suivants sont disponibles à l'adresse : magento : http://magento.site/admin. Tout ce dont vous avez besoin se trouve sur les sites Web fournis. Démarrez la tâche à partir de l'URL suivante : http://magento.site/admin

‍

Operator, utilisant sa compréhension des éléments Web, navigue ensuite sur le site donné en référene, accédant aux rapports pertinents pour trouver la réponse, ce qui vous fait gagner du temps et des efforts.

Ou, si vous planifiez un voyage à Pittsburgh et que vous avez besoin de trouver un hôtel et un supermarché à proximité, vous pourriez demander :

‍

Initialisez l'ordinateur et résolvez la tâche suivante : J'arriverai bientôt à l'aéroport de Pittsburgh. Indiquez le nom d'un hôtel Hilton à proximité, le cas échéant. Ensuite, indique-moi à quelle distance de marche se trouve le supermarché le plus proche appartenant à une entreprise locale depuis l'hôtel. Les sites Web suivants sont disponibles à l'adresse : openstreetmap : http://10.138.0.12. Tout ce dont vous avez besoin se trouve sur les sites Web fournis. Démarrez la tâche à partir de l'URL suivante : http://10.138.0.12

‍

Operator utilise ensuite les sites de cartographie pour trouver un hôtel près de l'aéroport, puis localise le supermarché le plus proche de cet hôtel, en vous fournissant les informations nécessaires.

‍

‍

Une collaboration essentielle avec les entreprises

OpenAI a établi des partenariats avec plusieurs entreprises, dont DoorDash, Instacart, OpenTable, StubHub, Priceline et Uber. Ces collaborations sont essentielles pour s'assurer qu'Operator réponde aux besoins du monde réel et respecte les normes établies de ces services. En outre, les collaborations suggèrent qu'Operator peut avoir des sites Web prédéfinis pour certaines tâches, ce qui rationalise le processus.

‍

En s'intégrant à ces services populaires, Operator est non seulement polyvalent, mais également prêt à effectuer de nombreuses tâches quotidiennes qui occupent notre vie, rendant notre expérience numérique plus efficace et plus fluide.

‍

III. Limites et défis : quels sont les points faibles de l'opérateur ?

Bien qu'Operator représente une avancée significative en matière de capacités d'IA, il est important de reconnaître qu'il ne s'agit pas d'un système parfait et totalement autonome. Il n'en est qu'à ses débuts de développement et, en tant que tel, présente des limites. Il est essentiel de comprendre ces limites pour fixer des attentes réalistes quant à ses performances actuelles.

‍

Tâches complexes

Opérateur a actuellement des difficultés à accomplir des tâches complexes et spécialisées. Il ne peut pas gérer de manière fiable des activités complexes telles que :

Création de diaporamas détaillés.
Gestion de systèmes de calendrier complexes.
Interagir avec des interfaces Web hautement personnalisées ou non standard.
Réaliser des modifications de texte complexes.
Naviguer dans des interfaces utilisateur inconnues.

‍

Problèmes liés au site Web

Operator rencontre également des problèmes avec des éléments d'interface spécifiques :

Les contrôles CAPTCHA nécessitent l'intervention de l'utilisateur.
Les champs de mot de passe nécessitent une saisie manuelle de la part de l'utilisateur.
Les interfaces complexes peuvent provoquer le blocage de l'agent.
Des UI inconnues peuvent entraîner des erreurs.

‍

Limites de débit et d'utilisation

Pour gérer les ressources et prévenir les abus, OpenAI a imposé plusieurs limites à l'utilisation de l'opérateur :

Il y a des limites de taux sur le nombre de tâches qu'il peut effectuer.
Il y a des limites dynamiques sur le nombre de tâches pouvant être exécutées simultanément.
Il existe une limite d'utilisation quotidienne globale qui se réinitialise chaque jour.

‍

Sûreté et sécurité

OpenAI a mis en place plusieurs mesures pour répondre aux problèmes de sécurité et de sûreté :

Des garanties sont en place pour limiter la sensibilité du modèle à des commandes malveillantes, des instructions masquées et des tentatives de phishing.
Une supervision par les utilisateurs est obligatoire sur les sites web sensibles, comme les plateformes de courrier électronique ou bancaires, pour aider les utilisateurs à détecter et à corriger les éventuelles erreurs.
Les tâches à haut risque, par exemple les détails de carte de crédit, sont non automatisé et demandent à l'utilisateur de saisir les informations manuellement.
Operator peut rester « bloqué » s'il rencontre des interfaces ou protocoles de sécurité complexes, et l'utilisateur devra prendre le relais.
Operator comprend un système de surveillance qui met fin à l'activité de l'agent lorsqu'il s'aperçoit d'un comportement suspect.
Le système est conçu pour refuser les demandes nuisibles et bloquer le contenu interdit.
Bien que le système ait pu identifier les injections les plus rapides lors des tests, il peut encore être vulnérable à de nouvelles menaces.

‍

Feedback des utilisateurs

Les premiers commentaires des utilisateurs ont révélé certains problèmes :

Il y a eu des rapports de performances incohérentes avec Operator.
Certains utilisateurs ont rencontré une fréquence d'erreurs plus élevée par rapport aux produits OpenAI précédents, tels que ChatGPT.
Le système a également été signalé comme léthargique par rapport aux attentes définies par les démonstrations d'OpenAI.

‍

‍

IV. Sécurité et confidentialité : quel est le niveau de sécurité de l'opérateur ?

OpenAI a déployé des efforts importants pour garantir que l'opérateur soit aussi sûr et privé que possible, en reconnaissant les risques liés à un agent d'IA capable d'interagir avec le Web de manière autonome. Bien qu'aucun système ne soit parfait, Operator intègre un certain nombre de garanties et de mesures de confidentialité pour protéger les utilisateurs.

‍

Garanties

Pour atténuer les risques potentiels, OpenAI a intégré les contrôles de sécurité suivants :

Confirmation de l'utilisateur : Operator est conçu pour demander la confirmation de l'utilisateur avant de finaliser les actions sensibles, par exemple en envoyant des e-mails ou en soumettant des commandes. Cela vous permet de passer en revue le travail de l'agent avant qu'il ne prenne une action permanente.
Limites du site Web : Les sites Web auxquels l'opérateur peut accéder sont limités. Certaines catégories, telles que les sites de jeux, de divertissement pour adultes et les détaillants de médicaments ou d'armes sont bloqués, pour s'assurer que l'agent n'est pas utilisé à des fins nocives.
Modération en temps réel : Operator emploie des systèmes de modération et de détection en temps réel conçus pour attraper et prévenir les injections de code. Ces systèmes garantissent la conformité aux politiques d'utilisation et empêchent les activités malveillantes.
Systèmes de surveillance: Un système de surveillance est en place pour suspendre l'exécution si une activité suspecte est détectée sur l'écran. Cela permet d'empêcher l'agent de prendre des mesures involontaires.

‍

Mesures de confidentialité

OpenAI a également mis en place un certain nombre de contrôles de confidentialité, permettant aux utilisateurs de contrôler leurs données :

Options de désinscription : Les utilisateurs ont la possibilité de refuser que leurs données soient utilisées pour la formation des modèles via les paramètres de ChatGPT. Cela signifie que les données générées dans Operator ne seront pas utilisées pour améliorer les modèles si ce paramètre est sélectionné.
Suppression des données de navigation : Les utilisateurs peuvent supprimer toutes les données de navigation et vous déconnecter de tous les sites en un clic dans la section confidentialité des paramètres de l'opérateur, ce qui lui permet d'effacer son historique de navigation. Les conversations passées dans Operator peuvent également être supprimées en un clic.
Mode de prise de contrôle : Quand les utilisateurs doivent saisir informations sensibles, telles que les mots de passe ou les informations de paiement, le « mode reprise » active. Dans ce mode, L'opérateur arrête de collecter des captures d'écran, et l'utilisateur peut saisir lui-même les informations.

‍

Autres risques

Malgré les garanties mises en œuvre, certains risques restent à prendre en compte :

Complexité des scénarios : La complexité des scénarios du monde réel signifie qu'il peut y avoir des défis imprévus.
Injections rapides et exfiltration de données : Il est possible d'effectuer des attaques par injection rapides, ce qui peut amener l'agent à prendre des mesures involontaires. En outre, il existe un risque d'exfiltration de données par le biais d'actions d'IA non autorisées ou d'interactions involontaires avec des sites malveillants.
Les vulnérabilités : Les systèmes ne sont pas parfaits, et de nouvelles menaces peuvent apparaître au fil du temps, ce qui pourrait mettre à mal les mesures de protection existantes.

‍

Conseils en matière de confidentialité

Pour protéger votre vie privée lors de l'utilisation de Operator, il est conseillé de suivre les conseils d'experts :

Démarrez une nouvelle session pour chaque tâche que vous confiez à Operator. Cela permet de s'assurer qu'il n'a pas accès à vos informations d'identification pour les sites que vous avez utilisés via l'outil dans le passé.
Si vous lui demandez de dépenser de l'argent en votre nom, laissez-le passer à la caisse, puis fournissez-lui vos informations de paiement, et effacez la session immédiatement après.

‍

V. Operator et son marché : concurrence et avenir des agents IA

Operator a fait son entrée sur un marché en rapide évolution, où d'autres géants de la technologie explorent le potentiel des agents d'IA. Cette section examinera la position concurrentielle de l'opérateur, ses performances et son potentiel à façonner l'avenir de l'interaction avec l'IA.

‍

Paysage concurrentiel

Operator est l'un des nombreux agents d'IA récemment lancés et est en concurrence directe avec des outils tels que :

Le projet Mariner de Google, un agent de navigation Web basé sur Gemini 2.0, qui exécute des tâches automatisées via le navigateur Chrome.
L'utilisation des ordinateurs par Anthropic, un outil d'automatisation Web qui peut contrôler le curseur de la souris d'un utilisateur et effectuer des actions sur un ordinateur, à l'aide d'une version de Claude 3.5 Sonnet.
Microsoft et Slack ont également lancé leurs propres agents d'IA.

Ces outils, comme Operator, visent à automatiser les tâches et à interagir avec le Web, mais chacun présente des forces et des faiblesses différentes. Operator se distingue des concurrents car il utilise une interface universelle d'écran, de souris et de clavier, lui permettant de naviguer dans n'importe quel logiciel conçu pour les humains. Il fonctionne également à distance, exécutant des tâches via un navigateur sur les serveurs d'OpenAI.

‍

Performance de référence

OpenAI a testé CUA par rapport à un certain nombre de critères de référence du secteur, et les résultats montrent une performance concurrentielle.

‍

‍

Sur OS World, qui teste la capacité d'un agent à effectuer des tâches telles que la fusion de fichiers PDF ou la manipulation d'une image, Le CUA obtient un score de 38,1 %, contre 22,0 % pour l'utilisation des ordinateurs, tandis que les humains obtiennent un score de 72,4 %.

‍

Sur Web Voyager, qui teste la capacité d'un agent à exécuter des tâches dans un navigateur, CUA obtient un score de 87 %, tandis que Mariner obtient 83,5 % et Computer Use 56 %.

‍

Sur Web Arena, qui utilise des sites de test hors ligne pour former des agents autonomes, Le taux de réussite de l'opérateur est de 58,1 %. Ces résultats montrent que si Operator a atteint des performances de pointe dans certains domaines, il y a toujours une importante marge d'amélioration, en particulier par rapport à la performance humaine. Cela montre également que les différents modèles ont un succès variable en fonction de l'environnement ou de la tâche à tester.

‍

Line chart titled 'OSWorld' showing success rates (%) versus max steps allowed on a logarithmic scale. Blue line represents OpenAI CUA, and orange points represent Claude 3.5 Sonnet Computer use, with annotations for success rates. By OSWorld — Indice de référence OSWorld

‍

Développement futur

OpenAI a des plans clairs pour élargir la portée et les capacités de l'opérateur :

Extension à d'autres niveaux d'abonnement : L'opérateur sera à terme disponible pour les Utilisateurs Plus, Team et Enterprise, ainsi que le niveau Pro.
Intégration dans ChatGPT : L'entreprise prévoit d'intégrer Operator directement dans ChatGPT pour offrir une expérience utilisateur plus fluide.
CUA dans l'API : Le modèle qui alimente Operator, CUA, sera disponible dans l'API , permettant aux développeurs de créer leurs propres agents à l'aide d'ordinateurs.

‍

Un impact plus large

Les agents d'IA tels qu'Operator ont le potentiel de transformer la façon dont nous interagissons avec la technologie et le Web en passant de la recherche passive d'informations à une gestion active des tâches :

Efficacité : Ces outils pourraient considérablement rationaliser les tâches pour les utilisateurs et faites bénéficier les entreprises des avantages des agents, en créant des expériences clients innovantes.
Accessibilité : Les agents d'IA pourraient améliorer accessibilité et efficacité de certains flux de travail, en particulier dans les applications du secteur public. Par exemple, faciliter l'inscription aux services de la ville.
Transformation de l'industrie : Les agents d'IA pourraient révolutionner des secteurs tels que service à la clientèle, soins de santé et éducation.
Interruption des services existants : Ces types de technologies ont le potentiel de perturber les services Internet traditionnels, tels que les moteurs de recherche.

‍

Discussion sur l'AGI

Le développement de l'opérateur s'inscrit dans le cadre de la poussée plus large vers Intelligence générale artificielle (AGI).

L'AGI peut être défini comme « de puissants systèmes d'IA capables d'utiliser un ordinateur comme vous ou moi pourrions le faire ».
Le développement d'agents d'IA est considéré comme une étape importante vers la réalisation de l'AGI.

‍

Conclusion

La mise en ligne d'Operator marque un moment potentiellement transformateur dans notre relation avec la technologie. Il s'agit d'une étape pionnière vers un avenir où les agents d'IA feront partie intégrante de notre routine quotidienne. Alors qu'il n'en était qu'à ses débuts, Les capacités de l'opérateur laissent entrevoir un changement significatif dans la façon dont nous interagissons avec le monde numérique.

‍

Principaux points à retenir :

Operator est un agent d'IA révolutionnaire qui peut accéder à Internet et interagir avec celui-ci pour effectuer des tâches de manière autonome.
Il est alimenté par Agent utilisant un ordinateur (CUA) modèle, qui utilise une interface universelle de écran, souris et clavier pour naviguer dans des environnements numériques sans avoir besoin d'API spécifiques.
L'opérateur peut automatiser une série de tâches, notamment en remplissant des formulaires, en effectuant des réservations et en effectuant des achats, soulignant sa capacité à combler le fossé entre les intentions humaines et l'exécution technologique.
Bien qu'il ait démontré des capacités impressionnantes, il présente également des limites, notamment des difficultés avec des interfaces complexes, l'édition de texte et une tendance à faire des erreurs.

‍

Il est important de préparez-vous à un avenir où les agents d'IA joueront un rôle important dans notre vie quotidienne. L'exploration continue de ces technologies est nécessaire pour garantir qu'elles sont utilisées de manière éthique et responsable.

‍

Les agents d'IA tels qu'Operator pourraient-ils perturber sérieusement l'Internet traditionnel ? La réponse à cette question dépendra de l'évolution de cette technologie dans les mois et les années à venir et façonnera notre interaction avec le monde numérique.

‍