Nowa strategia trenowania modeli AI

Koszty związane z trenowaniem dużych modeli językowych (LLMs) sprawiają, że proces ten jest dostępny tylko dla największych graczy technologicznych. W odpowiedzi na te ograniczenia zaproponowano metodę SALT (Small model Aided Large model Training), która opiera się na współpracy mniejszych modeli AI w celu wsparcia trenowania większych.

Metoda SALT – kluczowe założenia

SALT to podejście, które wprowadza dwustopniowy proces szkoleniowy. W pierwszym etapie mniejsze modele językowe (SLMs) pełnią funkcję nauczycieli, przekazując swoje „miękkie etykiety” większym modelom. W drugim etapie większe modele uczą się samodzielnie, rozwijając zaawansowane umiejętności.

Proces wiedzy przez destylację

Pierwszy etap SALT polega na tym, że mniejsze modele dostarczają podstawowych informacji, wskazując stopień pewności swoich odpowiedzi. Ten proces jest skuteczny w obszarach, gdzie model nauczyciel ma wysoką pewność predykcji, co pozwala większym modelom szybciej zrozumieć podstawowe wzorce danych.

Samodzielne uczenie dużych modeli

Drugi etap obejmuje przejście większego modelu do samodzielnego uczenia się. Kluczowe są tutaj techniki takie jak linear decay i linear ratio decay, które stopniowo zmniejszają wpływ nauczyciela, umożliwiając bardziej niezależne przyswajanie danych.

Znaczące wyniki eksperymentalne

Badania wykazały, że zastosowanie SALT pozwala skrócić czas trenowania modeli o 28% oraz poprawić wyniki w testach, takich jak dokładność rozwiązywania problemów matematycznych (z 31.84% do 34.87%) i czytania ze zrozumieniem (z 63.7% do 67%).

Dlaczego SALT działa?

Model nauczyciela, mimo mniejszych możliwości, może znacząco wpłynąć na efektywność większego modelu dzięki uzyskaniu korzystnego kompromisu między błędem bias a wariancją. Oznacza to, że mniejsze modele pomagają w budowaniu solidnych fundamentów dla zaawansowanego uczenia.

Potencjalne korzyści dla mniejszych organizacji

Zastosowanie SALT oznacza, że mniejsze laboratoria i firmy mogą rozwijać modele AI przy użyciu skromniejszych zasobów obliczeniowych, obniżając koszty i barierę wejścia w świat zaawansowanej sztucznej inteligencji.

Wpływ na rozwój sztucznej inteligencji

Większa dostępność technologii AI dzięki SALT może prowadzić do większej różnorodności rozwiązań oraz umożliwić eksperymenty w instytucjach akademickich, co wcześniej było poza ich zasięgiem.

Zmiany w krajobrazie rozwoju AI

SALT otwiera nowe możliwości dla mniejszych graczy, zmieniając dynamikę konkurencji na rynku AI. Oczekiwane są nowe zastosowania w dziedzinach dotychczas niedostępnych z powodu wysokich kosztów.

Użycie małych modeli jako nauczycieli pozwala na bardziej efektywne trenowanie dużych modeli, a jednocześnie zmienia zasady gry w rozwoju AI, czyniąc ją bardziej dostępną dla mniejszych organizacji.

Tags:ai, google, modele, salt, sztuczna inteligencja, training, trening

Rola red teamingu w testach OpenAI

Gospodarka intencji i perswazja AI

SALT czyli małe modele trenują większe