Nowe badania nad dostrajaniem modeli AI
Nowe badania z USA wskazują, że dostrajanie modeli AI na podstawie własnych danych nie musi obniżać pierwotnej funkcjonalności. Co więcej, zastosowanie prostych poprawek po treningu może przywrócić oryginalne możliwości modelu i poprawić jakość generowanych wyników. Metoda zaproponowana przez autorów badania przynosi znaczące korzyści w zakresie wydajności różnych modeli, co sugeruje szerokie zastosowanie tych rozwiązań.
Korzyści dla gigantów technologicznych i hobbystów
Konsekwencje tych wyników są istotne zarówno dla gigantów technologicznych, którzy oferują systemy generatywne jako usługę, jak i dla hobbystów. Coraz więcej osób korzysta z otwartych modeli, co pozwala na personalizację AI do generowania tekstów, obrazów i wideo w sposób bardziej ekonomiczny i z mniejszymi ograniczeniami.
Problemy z dostrajaniem Stable Diffusion
Problem, który autorzy badań starają się rozwiązać, pojawił się po wprowadzeniu Stable Diffusion w 2022 roku. Użytkownicy chcący dodać do modelu własne treści, takie jak wizerunki osób czy styl artystyczny, musieli korzystać z metod takich jak DreamBooth, co często prowadziło do obniżenia ogólnej funkcjonalności modelu. W efekcie tworzenie oddzielnych modeli dla każdego przypadku było nieefektywne i ograniczało uniwersalność modeli.
Nowe techniki dostrajania modeli
Nowe techniki, takie jak Low-Rank Adaptation (LoRA), wpływające jedynie na część parametrów modelu, zyskały na popularności. Jednak pełne dostrajanie nadal oferuje lepszą generalizację dla specyficznych danych, choć może prowadzić do utraty niektórych możliwości oryginalnego modelu. Problemem było to, że proces dostrajania był destrukcyjny i nie można było go powtarzać bez dalszego pogarszania wydajności modelu.
Kalibracja po dostrojeniu jako rozwiązanie
Zespół badawczy zaproponował metodę kalibracji po dostrojeniu, która rozwiązuje ten problem. Różnica między modelem przed i po dostrojeniu dotyczy głównie rozbieżności w skali logitów pomiędzy klasami danych dostrojonych a oryginalnymi. Logity przewidujące prawdopodobieństwo sukcesu mogą być łatwo skorygowane przez prostą technikę kalibracji, co poprawia jakość danych dostrojonych.
Zaskakujące odkrycia po kalibracji
Zaskakującym odkryciem było to, że po kalibracji model nie zapominał relacji między klasami, a wręcz generował bardziej wyraźne cechy dla klas nieobecnych podczas dostrajania. Wskazuje to, że odpowiednio skalibrowany model może wielokrotnie przechodzić proces dostrajania, nie tracąc ogólnej wydajności.
Skuteczność kalibracji na różnych modelach
Technika kalibracji post-facto działała skutecznie na różnych modelach, a w testach przewyższała najnowsze podejścia do problemu. Autorzy badania zauważyli, że metoda ta może być aplikowalna do każdego modelu, podczas gdy wcześniejsze techniki, takie jak zamrażanie warstw, były mniej efektywne.