January 25, 2025
L'opérateur d'OpenAI : l'agent d'IA qui révolutionne la façon dont nous utilisons le Web
Imaginez un monde où votre liste de tâches numérique serait gérée sans que vous n'ayez à lever le petit doigt, dès la réservation. escapades à la commande les courses, tous gérés par un Assistant IA. Ce n'est pas un rêve lointain, c'est la réalité IA ouverte construit activement avec Operator, un agent d'IA révolutionnaire.
L'opérateur va au-delà du simple chatbots, naviguant indépendamment sur le Web pour effectuer tâches, marquant une transition significative par rapport à la gestion passive recherche d'informations pour être actif gestion des tâches. Ce saut n'est pas propre à IA ouverte, comme les géants de la technologie tels que Google et Anthropique investissent également massivement dans des technologies.
L'opérateur est actuellement disponible en les États-Unis pour Chat GPT Pro abonnés à opérateur.chatgpt.com, avec l'intention d'étendre l'accès à d'autres niveaux et de l'intégrer à ChatGPT. Sa technologie sous-jacente, CUA, sera également publiée via une API pour les développeurs.
Cet article abordera Capacités de l'opérateur, découvrez le La technologie qui le fait fonctionner, discutez-en limitations, et explorez les implications plus larges de cette La technologie pour l'avenir de IA.
I. Comment fonctionne l'opérateur : dévoilement de l'agent utilisateur d'ordinateur (CUA)
Le cerveau
Au cœur d'Operator se trouve le Computer-Using Agent (CUA), le modèle d'IA sophistiqué qui alimente ses actions. Il ne s'agit pas simplement d'une mise à niveau progressive ; il s'agit d'une réinvention complète, s'appuyant sur la base solide des capacités avancées de vision et de raisonnement de GPT-4o, améliorées par l'apprentissage par renforcement.
Les yeux
Contrairement aux systèmes traditionnels qui reposent sur le code, le CUA peut « voir » le monde numérique comme le font les humains. Il y parvient en prise de captures d'écran de pages Web, qui sont ensuite traitées pour analyser les données de pixels brutes. Cela permet à CUA de comprendre l'interface utilisateur graphique (GUI) et de reconnaître des éléments tels que les boutons, les menus et les champs de texte avec lesquels les utilisateurs interagissent au quotidien. C'est comme donner à l'IA une paire d'yeux capables de comprendre le langage visuel du Web.
Les mains
Une fois qu'il a « vu » la page Web, CUA interagit avec celle-ci via entrées souris et clavier virtuels. Il clique sur des boutons, navigue dans les menus déroulants et remplit des champs de texte, comme le ferait une personne, en exécutant des tâches avec une dextérité simulée.
Processus itératif
Le CUA n'agit pas qu'une seule fois ; il fonctionne dans une boucle itérative continue de perception, raisonnement et action. Il scanne l'écran, décide d'une action, exécute cette action, scanne à nouveau l'écran, etc. Cela permet à CUA de s'adapter de manière dynamique à l'environnement changeant d'une page Web. S'il fait une erreur ou rencontre un problème inattendu, le CUA peut revenir en arrière et se corriger lui-même, en utilisant ses capacités de raisonnement pour revenir sur la bonne voie.
Aucune API requise
L'une des innovations les plus importantes de CUA est sa capacité à fonctionner sans avoir besoin d'interfaces de programmation d'applications (API). Les modèles d'IA traditionnels s'appuient généralement sur des API pour accéder à des logiciels spécifiques, ce qui limite leur portée et leur utilité. CUA contourne cette limitation en interagissant directement avec le front-end des sites Web comme un utilisateur humain, ouvrant l'accès à une vaste gamme de sites Web auparavant inaccessibles.
Répartition des tâches
Les tâches complexes ne sont pas un problème pour CUA, qui est formée pour décomposez-les en étapes plus petites et plus faciles à gérer. En cas de blocage, il utilise un processus de « chaîne de pensée » pour réévaluer la situation et adapter son approche, en utilisant des techniques similaires aux modèles de raisonnement d'OpenAI. Cela lui permet de gérer des flux de travail complexes en plusieurs étapes et de naviguer efficacement sur des pages Web complexes.
Fonctionnement cloud unique
Contrairement à d'autres outils, Operator ne s'exécute pas dans votre propre navigateur Web. Au lieu de cela, il fonctionne sur Les serveurs d'OpenAI, exécutant des tâches via un navigateur distant. Cela lui permet de gérer plusieurs tâches simultanément, offrant à l'utilisateur une expérience plus fluide et plus efficace que s'il était exécuté sur la machine locale de l'utilisateur.
II. Capacités de l'opérateur : que peut-il faire ?
Operator est bien plus qu'un simple outil ; c'est un assistant numérique polyvalent capable de gérer un large éventail de tâches, de vous libérer du temps et de simplifier votre vie numérique. Sa capacité à interagir avec le Web comme un humain ouvre de nombreuses possibilités d'automatisation.
Automatisation des tâches
L'opérateur peut automatiser de nombreuses tâches, notamment :
- Planification des voyages: Il peut réserver des vols, des hôtels et même des campings, en s'occupant de tous les détails pour que vous puissiez vous concentrer sur votre voyage.
- Réservations de restaurants: Faire des réservations de restaurant est un jeu d'enfant avec Operator, qui peut naviguer sur les sites de réservation et trouver la table qui vous convient le mieux.
- Achats en ligne: Qu'il s'agisse de commander des produits d'épicerie, de trouver le cadeau parfait ou d'acheter des articles de tous les jours, Operator peut gérer efficacement vos besoins d'achat en ligne.
- Remplissage de formulaires: Dites adieu au remplissage fastidieux des formulaires ; l'opérateur peut saisir automatiquement des informations, ce qui vous permet d'économiser du temps et des efforts.
- Calendrier et rappels: L'opérateur peut vous aider à gérer votre emploi du temps en ajoutant des rappels. Bien qu'il ait actuellement des limites dans la gestion des calendriers, celles-ci seront corrigées à l'avenir.
- Création de listes: qu'il s'agisse de compiler des listes de courses ou de créer des listes de lecture, Operator peut créer des listes en fonction de vos préférences et de vos exigences.
Interaction avec l'utilisateur
Bien que l'opérateur soit conçu pour effectuer des tâches de manière indépendante, vous gardez le contrôle. Vous pouvez suivre sa progression et, à tout moment, vous pouvez prendre vous-même le contrôle du navigateur. Cela vous permet d'intervenir si nécessaire ou si vous préférez saisir vous-même des informations sensibles telles que vos informations de connexion ou vos informations de paiement. En outre, L'opérateur est formé pour vous demander votre confirmation avant de finaliser les actions susceptibles d'avoir des effets secondaires externes, comme passer une commande ou envoyer un e-mail.
Exemples pratiques
L'utilité de l'opérateur peut être illustrée dans de nombreux exemples concrets. Par exemple :
- Soirées hebdomadaires : Vous pouvez demander à l'opérateur de trouver une liste de cinq restaurants proposant des tables pour deux le jeudi soir, vous évitant ainsi d'avoir à rechercher et à réserver chaque semaine.
- Achats rapides: Vous pouvez rapidement prendre une photo de votre liste d'épicerie manuscrite et demander à l'opérateur d'ajouter les articles à votre panier en ligne, ce qui vous permet d'économiser du temps et des efforts.
- Gestion des tâches: Vous pouvez utiliser Operator pour définir des rappels et programmer des invites, en vous assurant de ne pas oublier les tâches essentielles.
Opérateur de démonstration : comment l'utiliser ? :
Pour vraiment comprendre le potentiel d'Operator, examinons quelques exemples de la manière dont il pourrait être utilisé.
Imaginez que vous deviez trouver le produit le plus vendu depuis le panneau d'administration d'une boutique en ligne. Vous pouvez demander à l'opérateur quelque chose comme :
Initialisez l'ordinateur et résolvez la tâche suivante : Quel est le produit le plus vendu en 2022. Les sites Web suivants sont disponibles à l'adresse : magento : http://magento.site/admin. Tout ce dont vous avez besoin se trouve sur les sites Web fournis. Démarrez la tâche à partir de l'URL suivante : http://magento.site/admin
L'opérateur, utilisant sa compréhension des éléments Web, naviguerait ensuite sur le site, accédant aux rapports pertinents pour trouver la réponse, ce qui vous ferait gagner du temps et des efforts.
Ou, si vous planifiez un voyage à Pittsburgh et que vous avez besoin de trouver un hôtel et un supermarché à proximité, vous pourriez demander :
Initialisez l'ordinateur et résolvez la tâche suivante : J'arriverai bientôt à l'aéroport de Pittsburgh. Indiquez le nom d'un hôtel Hilton à proximité, le cas échéant. Ensuite, indique-moi à quelle distance de marche se trouve le supermarché le plus proche appartenant à une entreprise locale depuis l'hôtel. Les sites Web suivants sont disponibles à l'adresse : openstreetmap : http://10.138.0.12. Tout ce dont vous avez besoin se trouve sur les sites Web fournis. Démarrez la tâche à partir de l'URL suivante : http://10.138.0.12
L'opérateur utiliserait ensuite les sites de cartographie pour trouver un hôtel près de l'aéroport, puis localiserait le supermarché le plus proche de cet hôtel, en vous fournissant les informations nécessaires.
La collaboration est essentielle
OpenAI a établi des partenariats avec plusieurs entreprises, dont DoorDash, Instacart, OpenTable, StubHub, Priceline et Uber. Ces collaborations sont essentielles pour s'assurer que l'opérateur répond aux besoins du monde réel et respecte les normes établies de ces services. En outre, les collaborations suggèrent que l'opérateur peut avoir des sites Web prédéfinis pour certaines tâches, ce qui rationalise le processus.
En s'intégrant à ces services populaires, L'opérateur est non seulement polyvalent, mais également prêt à effectuer de nombreuses tâches quotidiennes qui occupent notre vie, rendre notre expérience numérique plus efficace et plus fluide.
III. Limites et défis : quels sont les points faibles de l'opérateur ?
Bien qu'Operator représente une avancée significative en matière de capacités d'IA, il est important de reconnaître qu'il ne s'agit pas d'un système parfait et totalement autonome. Il n'en est qu'à ses débuts de développement et, en tant que tel, présente des limites. Il est essentiel de comprendre ces limites pour fixer des attentes réalistes quant à ses performances actuelles.
Tâches complexes
Opérateur actuellement difficultés à accomplir des tâches complexes et spécialisées. Il ne peut pas gérer de manière fiable des activités complexes telles que :
- Création de diaporamas détaillés.
- Gestion de systèmes de calendrier complexes.
- Interagir avec des interfaces Web hautement personnalisées ou non standard.
- Réaliser des modifications de texte complexes.
- Naviguer dans des interfaces utilisateur inconnues.
Problèmes liés au site Web
L'opérateur rencontre également des problèmes avec des éléments d'interface spécifiques :
- Contrôles CAPTCHA nécessitent l'intervention de l'utilisateur.
- champs de mot de passe nécessitent une saisie manuelle de la part de l'utilisateur.
- Interfaces complexes en général, cela peut provoquer le blocage de l'agent.
- UI inconnues peut entraîner des actions et des erreurs inefficaces.
Limites de débit et d'utilisation
Pour gérer les ressources et prévenir les abus, OpenAI a imposé plusieurs limites à l'utilisation de l'opérateur :
- Il y a limites de taux sur le nombre de tâches qu'il peut effectuer.
- Il y a limites dynamiques sur le nombre de tâches pouvant être exécutées simultanément.
- Il existe un limite d'utilisation quotidienne globale qui se réinitialise chaque jour.
Sûreté et sécurité
OpenAI a mis en place plusieurs mesures pour répondre aux problèmes de sécurité et de sûreté :
- Garanties sont en place pour limiter la sensibilité du modèle à des invites malveillantes, des instructions masquées et des tentatives de phishing.
- Supervision des utilisateurs est obligatoire sur sites web sensibles, comme le courrier électronique ou les plateformes bancaires, pour aider les utilisateurs à détecter et à corriger les éventuelles erreurs.
- tâches à haut risque, par exemple en entrant détails de carte de crédit, sont non automatisé et demander à l'utilisateur de saisir les informations manuellement.
- L'opérateur peut rester « bloqué » s'il rencontre interfaces ou protocoles de sécurité complexes, et l'utilisateur devra prendre le relais.
- De l'opérateur protection intégrée comprend un système de surveillance qui met fin à l'activité de l'agent lorsqu'il s'en aperçoit comportement suspect, ainsi que pipelines automatisés et évalués par l'homme qui mettent constamment à jour les mécanismes de protection.
- Le système est conçu pour refuser les demandes nuisibles et bloquez le contenu interdit.
- Bien que le système ait pu identifier les injections les plus rapides lors des tests, il peut encore être vulnérable à de nouvelles menaces.
Feedback des utilisateurs
Les premiers commentaires des utilisateurs ont révélé certains problèmes :
- Il y a eu des rapports de performances incohérentes avec Operator.
- Certains utilisateurs ont rencontré un fréquence d'erreurs plus élevée par rapport aux produits OpenAI précédents, tels que ChatGPT.
- Le système a également été signalé comme léthargique par rapport aux attentes définies par les démonstrations d'OpenAI.
IV. Sécurité et confidentialité : quel est le niveau de sécurité de l'opérateur ?
OpenAI a déployé des efforts importants pour garantir que l'opérateur soit aussi sûr et privé que possible, en reconnaissant les risques liés à un agent d'IA capable d'interagir avec le Web de manière autonome. Bien qu'aucun système ne soit parfait, L'opérateur intègre un certain nombre de garanties et de mesures de confidentialité pour protéger les utilisateurs.
Garanties
Pour atténuer les risques potentiels, OpenAI a intégré les contrôles de sécurité suivants :
- Confirmation de l'utilisateur : L'opérateur est formé pour demander la confirmation de l'utilisateur avant de finaliser les actions sensibles, par exemple en envoyant des e-mails ou en soumettant des commandes. Cela vous permet de passer en revue le travail de l'agent avant qu'il ne prenne une action permanente.
- Limites du site Web: Les sites Web auxquels l'opérateur peut accéder sont limités. Certaines catégories, telles que les sites de jeux, les divertissements pour adultes et les détaillants de médicaments ou d'armes sont bloqués, pour s'assurer que l'agent n'est pas utilisé à des fins nocives.
- Modération en temps réel : L'opérateur emploie systèmes de modération et de détection en temps réel conçu pour attraper et prévenir les injections rapides. Ces systèmes garantissent la conformité aux politiques d'utilisation et empêchent les activités malveillantes.
- Systèmes de surveillance: Un supplément système de surveillance est en place pour suspendre l'exécution si une activité suspecte est détectée sur l'écran. Cela permet d'empêcher l'agent de prendre des mesures involontaires.
Mesures de confidentialité
OpenAI a également mis en place un certain nombre de contrôles de confidentialité, permettant aux utilisateurs de contrôler leurs données :
- Options de désinscription : Les utilisateurs ont la possibilité de refuser que leurs données soient utilisées pour la formation des modèles via les paramètres de ChatGPT. Cela signifie que les données générées dans Operator ne seront pas utilisées pour améliorer les modèles si ce paramètre est sélectionné.
- Suppression des données de navigation: Les utilisateurs peuvent supprimer toutes les données de navigation et vous déconnecter de tous les sites en un clic dans la section confidentialité des paramètres de l'opérateur, ce qui lui permet d'effacer son historique de navigation. Les conversations passées dans Operator peuvent également être supprimées en un clic.
- Mode de prise de contrôle: Quand les utilisateurs doivent saisir informations sensibles, telles que les mots de passe ou les informations de paiement, le « mode reprise » active. Dans ce mode, L'opérateur arrête de collecter des captures d'écran, et l'utilisateur peut saisir lui-même les informations.
Risques restants
Malgré les garanties mises en œuvre, certains risques restent à prendre en compte :
- Complexité des scénarios: La complexité des scénarios du monde réel et les nature dynamique des menaces contradictoires signifient qu'il peut y avoir des défis imprévus.
- Injections rapides et exfiltration de données: Il est possible de attaques par injection rapides, ce qui peut amener l'agent à prendre des mesures involontaires. En outre, il existe un risque de exfiltration de données par le biais d'actions d'IA non autorisées ou d'interactions involontaires avec des sites malveillants.
- Les vulnérabilités: Les systèmes ne sont pas parfaits, et de nouvelles menaces peuvent apparaître au fil du temps, ce qui pourrait contourner les mesures de protection existantes.
Conseils en matière de confidentialité
Pour protéger votre vie privée lors de l'utilisation de Operator, il est conseillé de suivre les conseils d'experts :
- Démarrez une nouvelle session pour chaque tâche que vous confiez à Operator. Cela permet de s'assurer qu'il n'a pas accès à vos informations d'identification pour les sites que vous avez utilisés via l'outil dans le passé.
- Si vous lui demandez de dépenser de l'argent en votre nom, laissez-le passer à la caisse, puis fournissez-lui vos informations de paiement, et effacez la session immédiatement après.
V. Opérateur sur le marché : concurrence et avenir des agents d'IA
L'arrivée de l'opérateur sur les lieux ne se fait pas dans le vide. Elle fait son entrée sur un marché en évolution rapide où d'autres géants de la technologie explorent également le potentiel des agents d'IA. Cette section examinera la position concurrentielle de l'opérateur, ses performances et son potentiel à façonner l'avenir de l'interaction avec l'IA.
Paysage concurrentiel
Operator est l'un des nombreux agents d'IA récemment lancés et est en concurrence directe avec des outils tels que :
- Le projet Mariner de Google, un agent de navigation Web basé sur Gemini 2.0, qui exécute des tâches automatisées via le navigateur Chrome.
- L'utilisation des ordinateurs par Anthropic, un outil d'automatisation Web qui peut contrôler le curseur de la souris d'un utilisateur et effectuer des actions sur un ordinateur, à l'aide d'une version de Claude 3.5 Sonnet.
- Microsoft et Slack ont également lancé leurs propres agents d'IA.
Ces outils, comme Operator, visent à automatiser les tâches et à interagir avec le Web, mais chacun présente des forces et des faiblesses différentes. L'opérateur se distingue car il utilise un interface universelle d'écran, de souris et de clavier, lui permettant de naviguer dans n'importe quel logiciel conçu pour les humains. Il fonctionne également à distance, exécutant des tâches via un navigateur sur les serveurs d'OpenAI.
Performance de référence
OpenAI a testé CUA par rapport à un certain nombre de critères de référence du secteur, et les résultats montrent une performance concurrentielle.
Sur OS World, qui teste la capacité d'un agent à effectuer des tâches telles que la fusion de fichiers PDF ou la manipulation d'une image, Le CUA obtient un score de 38,1 %, contre 22,0 % pour l'utilisation des ordinateurs, tandis que les humains obtiennent un score de 72,4 %.
Sur Web Voyager, qui teste la capacité d'un agent à exécuter des tâches dans un navigateur, CUA obtient un score de 87 %, tandis que Mariner obtient 83,5 % et Computer Use 56 %.
Sur Web Arena, qui utilise des sites de test hors ligne pour former des agents autonomes, Le taux de réussite de l'opérateur est de 58,1 %. Ces résultats montrent que si L'opérateur a atteint des performances de pointe dans certains domaines, il y a toujours une importante marge d'amélioration, en particulier par rapport à la performance humaine. Cela montre également que les différents modèles ont un succès variable en fonction de l'environnement ou de la tâche à tester.
Développement futur
OpenAI a des plans clairs pour élargir la portée et les capacités de l'opérateur :
- Extension à d'autres niveaux d'abonnement : L'opérateur sera éventuellement disponible pour Utilisateurs Plus, Team et Enterprise, ainsi que le niveau Pro.
- Intégration dans ChatGPT : L'entreprise prévoit de intégrer Operator directement dans ChatGPT pour offrir une expérience utilisateur plus fluide.
- CUA dans l'API : Le modèle qui alimente Operator, CUA, sera disponible dans l'API , permettant aux développeurs de créer leurs propres agents à l'aide d'ordinateurs.
Un impact plus large
Les agents d'IA tels que Operator ont le potentiel de transformer la façon dont nous interagissons avec la technologie et le Web en passant de la recherche passive d'informations à une gestion active des tâches :
- Efficacité : Ces outils pourraient considérablement rationaliser les tâches pour les utilisateurs et faites bénéficier les entreprises des avantages des agents, en créant des expériences clients innovantes.
- Accessibilité : Les agents d'IA pourraient améliorer accessibilité et efficacité de certains flux de travail, en particulier dans les applications du secteur public. Par exemple, faciliter l'inscription aux services de la ville.
- Transformation de l'industrie : Les agents d'IA pourraient révolutionner des secteurs tels que service à la clientèle, soins de santé et éducation.
- Interruption des services existants : Ces types de technologies ont le potentiel de perturber les services Internet traditionnels, tels que les moteurs de recherche.
Discussion sur l'AGI
Le développement de l'opérateur s'inscrit dans le cadre de la poussée plus large vers Intelligence générale artificielle (AGI).
- L'AGI peut être défini comme « de puissants systèmes d'IA capables d'utiliser un ordinateur comme vous ou moi pourrions le faire ».
- Le développement d'agents d'IA est considéré comme une étape importante vers la réalisation de l'AGI.
Conclusion
La publication de Operator marque un moment potentiellement transformateur dans notre relation avec la technologie. Il s'agit d'une étape pionnière vers un avenir où les agents d'IA feront partie intégrante de notre routine quotidienne. Alors qu'il n'en était qu'à ses débuts, Les capacités de l'opérateur laissent entrevoir un changement significatif dans la façon dont nous interagissons avec le monde numérique.
Principaux points à retenir :
- Opérateur est un agent d'IA révolutionnaire qui peuvent accéder à Internet et interagir avec celui-ci pour effectuer des tâches de manière autonome.
- Il est alimenté par Agent utilisant un ordinateur (CUA) modèle, qui utilise une interface universelle de écran, souris et clavier pour naviguer dans des environnements numériques sans avoir besoin d'API spécifiques.
- L'opérateur peut automatiser une série de tâches, notamment en remplissant des formulaires, en effectuant des réservations et en effectuant des achats, soulignant sa capacité à combler le fossé entre les intentions humaines et l'exécution technologique.
- Bien qu'il ait démontré des capacités impressionnantes, il présente également des limites, notamment des difficultés avec des interfaces complexes, l'édition de texte et une tendance à faire des erreurs.
Il est important de préparez-vous à un avenir où les agents d'IA joueront un rôle important dans notre vie quotidienne. L'exploration continue de ces technologies est nécessaire pour garantir qu'elles sont utilisées de manière éthique et responsable.
Les agents d'IA tels qu'Operator pourraient-ils perturber sérieusement l'Internet traditionnel ? La réponse à cette question dépendra de l'évolution de cette technologie dans les mois et les années à venir et façonnera notre interaction avec le monde numérique.