January 25, 2025

OpenAIのオペレーター:ウェブの利用方法に革命をもたらすAIエージェント ‍

予約から指を離さずにデジタルの To-Do リストが処理される世界を想像してみてください。逃走注文へ 食料品、すべてANによって管理されています AI アシスタント。これは遠い夢ではなく、現実です。 オープンAI で積極的に構築しています オペレーター、画期的なAIエージェント。

‍

オペレーターは単純ではありません チャットボット、Web を個別にナビゲートして実行する タスク、パッシブからの大きな転換を示す 情報検索 アクティブに タスク管理。この飛躍は、に限ったことではありません オープンAI、ハイテク巨人が好むように グーグル そして アントロピック 同じようなものにも多額の投資をしています技術。

‍

オペレーターは、現在次の場所でご利用いただけます米国に チャット GPT プロ の購読者 operator.chatgpt.com、他の階層へのアクセスを拡大し、ChatGPTに統合する予定です。その基盤となるテクノロジーである CUA も、開発者向けの API 経由でリリースされる予定です。

‍

この記事では詳しく説明します オペレーターの能力、発見してください技術それでうまくいくか話し合って 制限事項そして、これがもたらすより広い意味を探りましょう技術の未来のために 人工知能。

‍

‍

I. オペレーターの仕組み:コンピューター使用エージェント (CUA) の紹介

‍

ザ・ブレイン

オペレーターの中心には アクションを強化する高度なAIモデル、コンピューター使用エージェント（CUA）。これは単なる段階的なアップグレードではなく、強化学習によって強化されたGPT-4oの高度なビジョンと推論機能の強固な基盤の上に構築された、根本的に再発明されたものです。

‍

ジ・アイズ

コードに依存する従来のシステムとは異なり、CUAは人間と同じようにデジタル世界を「見る」ことができます。これを実現するには以下の方法があります。 Web ページのスクリーンショットを撮るそして、それを処理して未加工のピクセルデータを分析します。これにより、CUA はグラフィカルユーザーインターフェイス (GUI) を理解し、ユーザーが日常的に操作するボタン、メニュー、テキストフィールドなどの要素を認識できるようになります。これは、Web の視覚言語を理解できる一対の目を AI に与えるようなものです。

‍

ザ・ハンズ

CUAは、Webページを「見る」と、それを介してWebページと対話します 仮想マウスとキーボードの入力。ボタンをクリックしたり、ドロップダウンメニューをナビゲートしたり、テキストフィールドに入力したりして、人と同じように器用さをシミュレートしてタスクを実行します。

‍

反復プロセス

CUA は 1 回だけ動作するのではなく、連続的かつ反復的なループで動作します 知覚、推論、行動。画面のスキャン、アクションの決定、そのアクションの実行、画面の再スキャンなどを行います。これにより、CUA は Web ページの環境の変化に動的に適応できます。CUA は、ミスをしたり、予期せぬ障害にぶつかったりした場合に、その推論機能を用いて元に戻って自動的に修正できます。

‍

a flowchart showing the process of a CUA system interpreting input as text or screenshot, generating actions, and applying commands to a virtual machine

‍

API は不要です

CUA の最も重要な革新の 1 つは、アプリケーションプログラミングインターフェイス (API) を必要とせずに動作できることです。従来のAIモデルは通常、特定のソフトウェアへのアクセスにAPIに依存しているため、その範囲と有用性が制限されています。 CUAはこの制限を回避し、人間のユーザーのようにWebサイトのフロントエンドと直接やり取りします。これにより、以前はアクセスできなかった膨大な範囲のWebサイトへのアクセスが可能になります。

‍

タスク内訳

複雑なタスクはCUAにとって問題にはなりません。CUAは以下のように訓練されています それらをより小さく、より管理しやすいステップに分解してください。行き詰まった場合は、OpenAIの推論モデルと同様の手法を用いて、「思考連鎖」プロセスを使用して状況を再評価し、アプローチを適応させます。これにより、複雑な複数ステップのワークフローに取り組み、複雑な Web ページを効果的にナビゲートできるようになります。

‍

独自のクラウド運用

他のツールとは異なり、Operator は独自の Web ブラウザ内では実行されません。代わりに、以下で動作します。 OpenAIのサーバー、リモートブラウザ経由でタスクを実行。これにより、複数のタスクを同時に処理できるため、ユーザーのローカルマシンで実行する場合よりもスムーズで効率的な操作が可能になります。

‍

II。オペレーターの能力：何ができるのか

オペレーターは単なるツールではありません。幅広いタスクを処理できる多用途のデジタルアシスタントであり、時間を空け、デジタルライフを簡素化します。人間のようにウェブを操作できるため、自動化の可能性が広がります。

‍

タスクオートメーション

オペレーターは、次のような多数のタスクを自動化できます。

旅行計画：フライト、ホテル、さらにはキャンプ場も予約でき、細部にまで気を配って旅行に集中できます。
ダイニング予約: 予約サイトをナビゲートして、あなたにぴったりのテーブルを見つけることができるオペレーターを使えば、レストランの予約は簡単です。
オンラインショッピング: 食料品の注文、完璧なギフトの検索、日用品の購入など、オペレーターはオンラインショッピングのニーズに効率的に対応できます。
フォーム入力：面倒なフォーム入力にさようなら。オペレーターが情報を自動的に入力できるため、時間と労力を節約できます。
カレンダーとリマインダー: Operatorはリマインダーを追加することでスケジュール管理を支援できます。現在のところ、カレンダーの管理には制限がありますが、将来的には対処される予定です。
リストの作成：買い物リストの編集からプレイリストのキュレーションまで、Operatorはお客様の好みや要件に基づいてリストを作成できます。

‍

ユーザーインタラクション

Operator は独立してタスクを実行するように設計されていますが、 あなたはしっかりとコントロールし続けます。ブラウザーの進行状況を監視でき、いつでも自分でブラウザーの制御を引き継ぐことができます。これにより、必要な場合や、ログイン情報や支払い情報などの機密情報を自分で入力したい場合に、ユーザーが介入できるようになります。また、 オペレーターは、外部からの副作用を引き起こす可能性のあるアクションを完了する前に、確認を求めるように訓練されています。 注文やメールの送信など。

‍

実践例

オペレーターの有用性は、実際の多くの例で見ることができます。例えば:

ウィークリーデートナイト: オペレーターに木曜日の夜に2人掛けのテーブルがある5つのレストランのリストを検索するように指示できます。これにより、毎週検索して予約する手間が省けます。
クイックショッピング：手書きの買い物リストの写真をすばやく撮り、オペレーターにオンラインショッピングカートに商品を追加するように依頼できるため、時間と労力を節約できます。
タスク管理: オペレーターを使用してリマインダーを設定したり、プロンプトをスケジュールしたりできるため、重要なタスクを忘れないようにすることができます。

‍

Operator can be instructed to search for campsites in Yosemite with good picnic tables. — ピクニックテーブルの良いヨセミテのキャンプ場を探すようオペレーターに指示できる | 出典:Open AI

‍

デモンストレーションオペレータ-使い方は？:

Operator のポテンシャルを真に理解するために、使い方の例をいくつか見てみましょう。

‍

オンラインストアの管理パネルからベストセラー商品を見つける必要があると想像してみてください。オペレーターに次のようなプロンプトを出すことができます。

‍

コンピュータを初期化し、次のタスクを解決してください。2022年のベストセラー製品トップ1は何ですか。以下のウェブサイトは magento: http://magento.site/admin でご覧いただけます。必要なのは提供されているウェブサイトだけです。次の URL からタスクを開始してください。http://magento.site/admin

‍

オペレーターは、ウェブ要素に関する知識を活かしてサイトをナビゲートし、関連するレポートにアクセスして答えを見つけることができるため、時間と労力を節約できます。

または、ピッツバーグへの旅行を計画していて、ホテルや近くのスーパーマーケットを探す必要がある場合は、次のことを尋ねることもできます。

‍

コンピュータを初期化し、次のタスクを解決してください。ピッツバーグ空港にすぐに到着します。もしあれば、近くのヒルトンホテルの名前を教えてください。そして、ホテルから地元企業が経営する最寄りのスーパーマーケットまでの徒歩距離を教えてください。以下のウェブサイトは、openstreetmap: http://10.138.0.12 でご覧いただけます。必要なのは提供されているウェブサイトだけです。次の URL からタスクを開始してください。http://10.138.0.12

‍

その後、オペレーターはマッピングサイトを使用して空港近くのホテルを見つけ、そのホテルから最寄りの地元のスーパーマーケットを探して、必要な情報を提供します。

‍

‍

コラボレーションがカギ

OpenAIは、DoorDash、Instacart、OpenTable、StubHub、Priceline、Uberなど、いくつかの企業と提携しています。これらの連携は、オペレーターが現実世界のニーズに応え、これらのサービスの確立された規範を尊重することを確実にするために不可欠です。また、このコラボレーションは、オペレーターが特定のタスク用に事前にウェブサイトを用意して、プロセスを合理化できる可能性があることも示唆しています。

‍

これらの人気サービスと統合することで、 オペレーターは多用途であるだけでなく、私たちの生活に必要な日常業務の多くを処理する準備ができています。 デジタル体験をより効率的かつシームレスにします。

‍

III。制限と課題:オペレーターが足りないのはどこか

Operator は AI 機能において大きな飛躍を遂げましたが、完璧で完全に自律的なシステムではないことを認識することが重要です。 まだ開発の初期段階であり、そのため限界があります。現在のパフォーマンスを現実的に予測するには、これらの制限を理解することが重要です。

‍

複雑なタスク

現在のオペレーター 複雑で専門的な作業に苦労している。次のような複雑なアクティビティは確実に処理できません。

詳細なスライドショーの作成。
複雑なカレンダーシステムの管理。
高度にカスタマイズされたウェブインターフェースや非標準のウェブインターフェースとのやり取り。
複雑なテキスト編集を行います。
なじみのないUIをナビゲートする。

‍

ウェブサイトに関する問題

Operator は特定のインターフェイス要素でも問題が発生します。

キャプチャチェック ユーザーの介入が必要です。
パスワードフィールド ユーザーによる手動入力が必要です。
複雑なインターフェース 一般的に、エージェントが動けなくなる可能性があります。
なじみのないUI 非効率的なアクションやエラーにつながる可能性があります。

‍

料金と使用制限

リソースを管理し、悪用を防ぐために、OpenAIはオペレーターの使用にいくつかの制限を課しています。

あります レート制限 実行できるタスクの数によって異なります。
あります ダイナミックリミット 同時に実行できるタスクの数について
あります 全体の 1 日の使用上限 それは毎日リセットされます。

‍

セキュリティと安全

OpenAIは、セキュリティと安全上の懸念に対処するためにいくつかの対策を実施しています。

セーフガード モデルの感受性を制限するために導入されています 悪意のあるプロンプト、隠された指示、フィッシング攻撃。
ユーザー監督 に必要です 機密性の高いウェブサイトメールや銀行プラットフォームなど。ユーザーが潜在的な間違いを見つけて修正するのに役立ちます。
リスクの高いタスク、 入るなど クレジットカード情報、は 自動化されていない また、ユーザーに情報を手動で入力するよう要求します。
オペレーターが次の状況に遭遇すると、「行き詰まる」可能性があります 複雑なインターフェースまたはセキュリティプロトコル、ユーザーが引き継ぐ必要があります。
オペレーターの 内蔵保護 を含む 監視システム 気づいたらエージェントの活動を終了させる 不審な行動、だけでなく 自動化された、人間が確認したパイプライン 保護メカニズムを継続的に更新します。
このシステムは次のように設計されています 有害な要求を拒否 許可されていないコンテンツをブロックします。
システムはテストでほとんどの即効注入を識別できましたが、 まだ新しい脅威に対しては脆弱かもしれません。

‍

ユーザーフィードバック

初期のユーザーフィードバックにより、いくつかの問題が明らかになりました。

の報告がありました 一貫性のないパフォーマンス オペレーターと。
一部のユーザーは経験しています エラーの発生頻度が高い ChatGPTのような以前のOpenAI製品と比較してください。
このシステムは次のようにも報告されています鈍い OpenAIのデモンストレーションで設定された期待値と比較してください。

‍

‍

IV。安全とプライバシー:オペレーターはどの程度安全ですか?

OpenAIは、自律的にウェブと対話できるAIエージェントに伴うリスクを認識し、オペレーターが可能な限り安全でプライベートであることを保証するために多大な努力を払ってきました。完璧なシステムはありませんが、 オペレーターは、ユーザーを保護するために多くの保護手段とプライバシー対策を取り入れています。

‍

セーフガード

潜在的なリスクを軽減するために、OpenAIには以下の安全管理機能が組み込まれています。

ユーザー確認: オペレーターは以下のように訓練されています 機密操作を完了する前にユーザーに確認を求める、電子メールの送信や注文の送信など。これにより、エージェントが恒久的なアクションを取る前にエージェントの作業を確認できます。
Web サイトの制限: オペレーターがアクセスできるウェブサイトには制限があります。特定のカテゴリ (例: ギャンブルサイト、アダルトエンターテインメント、麻薬や銃の小売業者はブロックされています、エージェントが有害な目的で使用されないようにするためです。
リアルタイムモデレーション: オペレーターが雇用する リアルタイムモデレーションおよび検出システム 捕まえるように設計されており 即時注射を防ぐ。これらのシステムは、使用ポリシーの遵守と悪質な行為の防止に役立ちます。
監視システム: 追加 監視システム 次の場所に配置されています 不審なアクティビティが検出された場合は実行を一時停止する 画面に。これにより、エージェントが意図しないアクションを実行するのを防ぐことができます。

‍

プライバシー対策

OpenAIは、ユーザーが自分のデータを制御できるように、いくつかのプライバシーコントロールも実装しています。

オプトアウトオプション: ユーザーは次のことができます 自分のデータをモデルトレーニングに使用することをオプトアウト チャットGPT設定を通じて。つまり、この設定を選択した場合、Operator 内で生成されたデータはモデルの改善には使用されません。
閲覧データの削除: ユーザーができること すべての閲覧データを削除し、ワンクリックですべてのサイトからログアウトします オペレーター設定のプライバシーセクションで、閲覧履歴を消去できます。Operator の過去の会話もワンクリックで削除できます。
テイクオーバーモード: ユーザーが入力する必要がある場合 パスワードや支払い情報などの機密情報は、「テイクオーバーモード」が有効になります。このモードでは、 オペレーターがスクリーンショットの収集を停止する、ユーザーは自分で情報を入力できます。

‍

残存リスク

保護措置が講じられているにもかかわらず、考慮すべきリスクがまだいくつかあります。

シナリオの複雑さ: 現実世界のシナリオの複雑さと 敵対的脅威の動的な性質 予期せぬ課題が発生する可能性があるということです。
プロンプトインジェクションとデータエクストレーション: 可能性があります プロンプトインジェクション攻撃これにより、エージェントが意図しないアクションを実行する可能性があります。さらに、次のようなリスクもあります。 データ漏洩 不正な AI アクション、または悪意のあるサイトとの意図しないやり取りを通じて。
脆弱性: システムは完璧ではなく、 新たな脅威が出現する可能性がある 時間が経つにつれて、既存の保護対策を回避する可能性があります。

‍

プライバシーに関するアドバイス

Operator を使用する際のプライバシーを保護するために、専門家のアドバイスに従うことをお勧めします。

Operator にアウトソーシングするタスクごとに新しいセッションを開始します。 これは、過去にツールを介して使用したことがあるサイトの認証情報にアクセスできないようにするためです。
お客様に代わってお金を使わせている場合は、チェックアウトまで行ってから、支払いの詳細を伝え、 その直後にセッションを消去する。

‍

V. 市場における事業者：競争とAIエージェントの未来

オペレーターが現場に到着したのは、何もない状態ではありません。急速に発展する市場に参入しつつあり、他の大手テクノロジー企業も AI エージェントの可能性を模索しています。このセクションでは、Operator の競争力、業績、そして AI インタラクションの未来を形作る可能性について考察します。

‍

競争環境

Operatorは、最近立ち上げられた数あるAIエージェントのひとつで、次のようなツールと直接競合しています。

グーグルのプロジェクトマリナーは、Gemini 2.0上に構築されたウェブブラウジングエージェントで、Chromeブラウザを介して自動タスクを実行します。
アンソロピックのコンピューター利用、 Claude 3.5 Sonnetのバージョンを使用して、ユーザーのマウスカーソルを制御し、コンピューター上でアクションを実行できるWeb自動化ツール。
マイクロソフト そして スラック 独自のAIエージェントも立ち上げました。

これらのツールは Operator と同様に、タスクを自動化し、Web とやり取りすることを目的としていますが、それぞれに長所と短所があります。Operator が目立つのは、 画面、マウス、キーボードのユニバーサルインターフェイス、 人間向けに設計されたあらゆるソフトウェアを操作できます。また、リモートで動作し、OpenAI のサーバー上のブラウザーを介してタスクを実行します。

‍

ベンチマークパフォーマンス

OpenAIはCUAを多くの業界ベンチマークと照合してテストし、その結果は競争力のあるパフォーマンスを示しています。

‍

‍

オン オズワールドは、エージェントが PDF ファイルの結合や画像の操作などのタスクをどの程度うまく実行するかをテストします。 CUAスコア 38.1%コンピュータ使用率が 22.0% だったのに対し、人間は 72.4% でした。

‍

オン ウェブボイジャーは、エージェントがブラウザでどの程度うまくタスクを実行するかをテストします。 CUAスコア 87%一方、マリナーは83.5％、コンピューターの使用率は56％です。

‍

オン ウェブアリーナは、自律型エージェントのトレーニングにオフラインのテストサイトを使用しています。 オペレーターの成功率は 58.1%。これらの結果は、その一方で オペレーターは一部の分野で最先端のパフォーマンスを達成しています、まだあります 改善の余地は大きい特に人間のパフォーマンスと比較するとまた、テスト対象の特定の環境やタスクによって、さまざまなモデルの成功率が異なることもわかります。

‍

Line chart titled 'OSWorld' showing success rates (%) versus max steps allowed on a logarithmic scale. Blue line represents OpenAI CUA, and orange points represent Claude 3.5 Sonnet Computer use, with annotations for success rates. By OSWorld — OSワールドベンチマーク

‍

将来の開発

OpenAIには、オペレーターのリーチと機能を拡大するための明確な計画があります。

他のサブスクリプション階層への拡張: オペレーターは最終的に利用可能になります プラス、チーム、エンタープライズユーザー、プロティアも同様です。
チャットGPTへの統合: 同社が計画しているのは オペレーターをChatGPTに直接統合 よりシームレスなユーザーエクスペリエンスを提供するため。
API 内の CUA: オペレーターを動かすモデル、CUAがAPIで利用できるようになります これにより、開発者は独自のコンピューターを使用するエージェントを構築できます。

‍

より広範な影響

オペレーターのようなAIエージェントには、次のような可能性があります。 テクノロジーとの関わり方を変える そして、受動的な情報検索から能動的なタスク管理へと移行することによるウェブ:

効率: これらのツールは大幅に可能性があります タスクを合理化 ユーザー向けであり、エージェントのメリットを企業にもたらし、革新的な顧客体験を生み出します。
アクセシビリティ: AIエージェントは改善できる アクセシビリティと効率性 特定のワークフロー、特に公共部門のアプリケーションにおけるものです。たとえば、都市サービスへの登録を容易にするなど。
業界の変革: AIエージェントは次のような業界に革命をもたらす可能性があります カスタマーサービス、医療、教育。
既存サービスの中断: これらのタイプのテクノロジーには、次のような可能性があります。 従来のインターネットサービスを混乱させる、検索エンジンなど。

‍

AGIディスカッション

オペレーターの開発は、より広範な取り組みと一致しています 汎用人工知能 (AGI)。

AGIは次のように定義できます 「あなたや私と同じようにコンピューターを使用できる強力なAIシステム」。
AIエージェントの開発は、汎用人工知能の実現に向けた重要な一歩と見なされています。

‍

結論

オペレーターのリリースは、私たちとテクノロジーの関係に潜在的に変革をもたらす瞬間を告げています。これは、AI エージェントが私たちの日常業務に欠かせない存在になる未来に向けた先駆的な一歩です。まだ初期段階ではありますが、 オペレーターの能力は、私たちがデジタル世界と交流する方法に大きな変化をもたらしたことを示唆しています。

‍

重要なポイント:

オペレータ は 画期的な AI エージェント インターネットにアクセスして操作し、独立してタスクを実行できます。
を動力源としています コンピュータ使用エージェント (CUA) のユニバーサルインターフェイスを使用するモデル 画面、マウス、キーボード 特定の API を必要とせずにデジタル環境をナビゲートできます。
オペレーターは さまざまなタスクを自動化フォームへの記入、予約の予約、購入など、その能力の強調表示など ブリッジ・ザ・ギャップ の間 人間の意図と技術的実行。
優れた機能を発揮していますが、複雑なインターフェースやテキスト編集が難しい、間違いを犯しやすいなどの制限もあります。

‍

重要なことは AIエージェントが私たちの日常生活で重要な役割を果たす未来に備えましょう。 これらのテクノロジーが倫理的かつ責任を持って使用されるようにするには、これらのテクノロジーを継続的に調査する必要があります。

‍

オペレーターのようなAIエージェントは、従来のインターネットに大きな混乱をもたらす可能性がありますか？ この質問への答えは、今後数ヶ月、数年におけるこのテクノロジーの進化に左右され、デジタル世界との交流が形作られるでしょう。

‍