Analiza wideo w czasie rzeczywistym
OpenAI wprowadziło funkcję analizy wideo w czasie rzeczywistym do ChatGPT, umożliwiając użytkownikom wykorzystanie kamer do interakcji z AI. Dzięki temu technologia może analizować otoczenie i udzielać odpowiedzi w sposób konwersacyjny. Funkcja, zapowiedziana w maju, czekała na premierę przez siedem miesięcy.
Funkcjonalność umożliwiająca praktyczne zastosowania
ChatGPT, dzięki nowemu trybowi wideo, rozszerza swoje możliwości w zakresie rozwiązywania zadań, generowania przepisów kulinarnych czy prowadzenia edukacyjnych gier. W jednym z testów chatbot wspierał dziecko w przygotowywaniu naleśników, udzielając wskazówek i zachęcając do nauki poprzez zabawę.
Porównanie z konkurencją
Nowość od OpenAI pojawiła się dzień po premierze Project Astra od Google, który również korzysta z technologii rozpoznawania obrazu w czasie rzeczywistym. Równocześnie Meta rozwija swoje AI z funkcjami wideo i interakcjami w rzeczywistości rozszerzonej, używając inteligentnych okularów pod nazwą Project Orion.
Dostępność i koszty
Funkcja wideo jest dostępna wyłącznie dla użytkowników subskrypcji Plus, Team i Pro. Koszt subskrypcji Plus wynosi 20 USD miesięcznie, natomiast wersja Pro kosztuje 200 USD. Użytkownicy z Europy muszą jeszcze poczekać na dostęp do tej opcji.
Integracja trybu wideo z zaawansowanym rozpoznawaniem głosu
OpenAI połączyło nową funkcję z trybem głosowym, zapewniając płynną i naturalną interakcję. Dzięki temu chatbot oferuje szybkie i trafne odpowiedzi, wykorzystując zaawansowane rozpoznawanie obrazu i głosu.
Trudności w implementacji
Premiera funkcji została opóźniona przez kontrowersje związane z użyciem technologii głosowej, która wcześniej symulowała głos znanej aktorki bez jej zgody. Problemy te wpłynęły na wdrożenie nowego trybu wideo, ponieważ jest on bezpośrednio powiązany z zaawansowanym rozpoznawaniem głosu.
Plany Google i Meta
Google pracuje nad nowymi funkcjami swojej AI, takimi jak agentowe zachowania, które pozwolą na wykonywanie zadań w czasie rzeczywistym. Meta stawia na rozwiązania z zakresu rzeczywistości rozszerzonej, oferując dyskretne inteligentne okulary z wbudowaną kamerą.
Perspektywy na przyszłość
Rozwój technologii wideo w AI zapowiada transformację interakcji użytkownika z urządzeniami. ChatGPT oraz jego konkurenci pokazują, że przyszłość należy do systemów zdolnych do rozumienia i reagowania na wielomodalne dane w czasie rzeczywistym.