Nowe możliwości z OpenAI Operator
Na początku roku Sam Altman, CEO OpenAI, zapowiedział, że 2025 będzie przełomowy dla narzędzi automatyzujących zadania, takich jak AI agents. OpenAI rozpoczęło wdrażanie tej wizji, ogłaszając Operatora – uniwersalnego agenta AI, który potrafi kontrolować przeglądarkę internetową i wykonywać samodzielnie określone działania.
Premiera Operatora w Stanach Zjednoczonych
Operator został wprowadzony w wersji preview na platformie ChatGPT Pro, dostępnej za 200 dolarów miesięcznie. Planowane jest jego rozszerzenie na inne wersje, takie jak Plus, Team i Enterprise. W Europie funkcja ta będzie dostępna później, co wynika z konieczności dostosowania jej do lokalnych wymagań.
Funkcjonalności Operatora
Operator ma za zadanie automatyzować codzienne czynności, takie jak rezerwacja podróży, zamawianie jedzenia czy zakupy online. Użytkownicy mogą wybierać z różnych kategorii zadań, w tym zakupy, dostawy, gastronomię i podróże. Interfejs Operatora umożliwia podgląd działań agenta oraz ręczne przejęcie kontroli w dowolnym momencie.
Technologia stojąca za Operatorem
Operator korzysta z modelu Computer-Using Agent (CUA), który łączy możliwości wizualne modelu GPT-4o z zaawansowanymi zdolnościami rozumowania innych modeli OpenAI. CUA został zaprojektowany do interakcji z interfejsami stron internetowych, co pozwala mu obsługiwać przyciski, menu i formularze w sposób zbliżony do ludzkiego.
Współpraca z firmami
Aby zapewnić zgodność z regulaminami usług, OpenAI nawiązało współpracę z takimi firmami jak DoorDash, eBay, Instacart czy Uber. Operator jest również zaprogramowany, aby prosić użytkowników o potwierdzenie przed finalizacją działań, takich jak składanie zamówień czy wysyłanie e-maili.
Bezpieczeństwo i ograniczenia
OpenAI podkreśla, że Operator wymaga aktywnego nadzoru przy realizacji wrażliwych zadań, takich jak transakcje bankowe czy wprowadzanie danych kart kredytowych. Funkcja ta została zaprojektowana tak, aby zapewnić maksymalną ochronę danych użytkowników, eliminując możliwość zapisywania czy wykonywania zrzutów ekranu.