Nowa strategia trenowania modeli AI
Koszty związane z trenowaniem dużych modeli językowych (LLMs) sprawiają, że proces ten jest dostępny tylko dla największych graczy technologicznych. W odpowiedzi na te ograniczenia zaproponowano metodę SALT (Small model Aided Large model Training), która opiera się na współpracy mniejszych modeli AI w celu wsparcia trenowania większych.
Metoda SALT – kluczowe założenia
SALT to podejście, które wprowadza dwustopniowy proces szkoleniowy. W pierwszym etapie mniejsze modele językowe (SLMs) pełnią funkcję nauczycieli, przekazując swoje „miękkie etykiety” większym modelom. W drugim etapie większe modele uczą się samodzielnie, rozwijając zaawansowane umiejętności.
Proces wiedzy przez destylację
Pierwszy etap SALT polega na tym, że mniejsze modele dostarczają podstawowych informacji, wskazując stopień pewności swoich odpowiedzi. Ten proces jest skuteczny w obszarach, gdzie model nauczyciel ma wysoką pewność predykcji, co pozwala większym modelom szybciej zrozumieć podstawowe wzorce danych.
Samodzielne uczenie dużych modeli
Drugi etap obejmuje przejście większego modelu do samodzielnego uczenia się. Kluczowe są tutaj techniki takie jak linear decay i linear ratio decay, które stopniowo zmniejszają wpływ nauczyciela, umożliwiając bardziej niezależne przyswajanie danych.
Znaczące wyniki eksperymentalne
Badania wykazały, że zastosowanie SALT pozwala skrócić czas trenowania modeli o 28% oraz poprawić wyniki w testach, takich jak dokładność rozwiązywania problemów matematycznych (z 31.84% do 34.87%) i czytania ze zrozumieniem (z 63.7% do 67%).
Dlaczego SALT działa?
Model nauczyciela, mimo mniejszych możliwości, może znacząco wpłynąć na efektywność większego modelu dzięki uzyskaniu korzystnego kompromisu między błędem bias a wariancją. Oznacza to, że mniejsze modele pomagają w budowaniu solidnych fundamentów dla zaawansowanego uczenia.
Potencjalne korzyści dla mniejszych organizacji
Zastosowanie SALT oznacza, że mniejsze laboratoria i firmy mogą rozwijać modele AI przy użyciu skromniejszych zasobów obliczeniowych, obniżając koszty i barierę wejścia w świat zaawansowanej sztucznej inteligencji.
Wpływ na rozwój sztucznej inteligencji
Większa dostępność technologii AI dzięki SALT może prowadzić do większej różnorodności rozwiązań oraz umożliwić eksperymenty w instytucjach akademickich, co wcześniej było poza ich zasięgiem.
Zmiany w krajobrazie rozwoju AI
SALT otwiera nowe możliwości dla mniejszych graczy, zmieniając dynamikę konkurencji na rynku AI. Oczekiwane są nowe zastosowania w dziedzinach dotychczas niedostępnych z powodu wysokich kosztów.