Osiągnięcia OpenAI w rozwoju modeli AI

Najnowszy model OpenAI, oznaczony jako o3, uzyskał rekordowy wynik 87,5% na benchmarku ARC-AGI, wskazując na znaczne postępy w dziedzinie sztucznej inteligencji. Benchmark ten, bazujący na Abstract Reasoning Corpus, ocenia zdolność modeli AI do adaptacji w nowych zadaniach i rozwiązywania zagadek wymagających inteligencji płynnej. Ludzie rozwiązują te zadania z łatwością, ale dla maszyn są one dużym wyzwaniem.

Specyfika benchmarku ARC-AGI

Benchmark ARC-AGI został zaprojektowany tak, by uniemożliwiać trenowanie modeli na podstawie ogromnych ilości danych. Testy są oparte na wizualnych zagadkach, które wymagają rozumienia podstawowych pojęć, takich jak granice, obiekty czy relacje przestrzenne. W celu uniknięcia oszustw, używane są zestawy danych prywatnych i półprywatnych, a obliczeniowe zasoby modeli są ograniczone, co eliminuje metody brute-force.

Wzrost zdolności modeli AI

Model o3 wyróżnia się na tle swoich poprzedników, osiągając wynik znacznie wyższy niż inne podejścia, takie jak hybrydowe metody łączące Claude 3.5 Sonnet z algorytmami genetycznymi. Twórca ARC, François Chollet, podkreśla, że wynik modelu o3 reprezentuje istotny postęp w zdolnościach adaptacyjnych modeli AI, nigdy wcześniej niewidziany w rodzinie GPT.

Nowy paradygmat rozumowania

Kluczowym elementem rozwoju modelu o3 jest zastosowanie podejścia program synthesis, umożliwiającego tworzenie małych programów do rozwiązywania specyficznych problemów. W przeciwieństwie do tradycyjnych modeli, takich jak GPT-4, o3 demonstruje zdolność łączenia mniejszych komponentów w celu rozwiązywania bardziej złożonych zadań. Jednak brak szczegółowych informacji na temat działania modelu powoduje, że opinie naukowców na ten temat są podzielone.

Krytyka metodyki

Niektórzy badacze wskazują, że model o3 opiera się na mechanizmach Chain of Thought i wyszukiwaniu z nagrodami, co czyni go bardziej zaawansowanym predyktorem tekstu niż systemem rozumującym. Krytycy, tacy jak Melanie Mitchell, sugerują, by oceniać zdolności modeli na podstawie ich adaptacji do nowych zadań, zamiast wyników uzyskanych na ograniczonych zestawach danych.

Koszty obliczeniowe i efektywność

Wysokie wyniki modelu o3 na benchmarku ARC-AGI wiążą się z ogromnymi kosztami obliczeniowymi. Przy budżecie wysokiego zużycia model zużywa miliardy tokenów na jedno zadanie. To rodzi pytania o efektywność i skalowalność takich rozwiązań, mimo spodziewanego spadku kosztów w przyszłości.

Ograniczenia w osiągnięciu AGI

Mimo że nazwa benchmarku ARC-AGI sugeruje związek z Artificial General Intelligence, eksperci podkreślają, że osiągnięcie wysokich wyników nie oznacza AGI. Model o3 nadal zawodzi na prostych zadaniach, co wskazuje na fundamentalne różnice między nim a ludzką inteligencją.

o3 to wyjątkowy krok naprzód, ale droga do prawdziwej AGI nadal pozostaje wyzwaniem.

Tags:agi, ai, modele, o3, openai, rozumowanie, sztuczna inteligencja

Przyszłość zabezpieczeń to AI vs AI

Rozumowanie modelu o3 od OpenAI