Postępy w architekturze modeli językowych
Ostatnie postępy w architekturze i wydajności multimodalnych dużych modeli językowych (MLLM) podkreśliły znaczenie skalowalnych danych i modeli w celu poprawy ich wydajności. Chociaż podejście to zwiększa skuteczność, wiąże się z wysokimi kosztami obliczeniowymi, które ograniczają praktyczność i użyteczność takich rozwiązań. Modele typu Mixture of Experts (MoE) okazały się skuteczną alternatywą do skalowania modeli tekst-obraz i dużych modeli językowych, oferując znacznie niższe koszty obliczeniowe przy jednoczesnym zachowaniu wysokiej wydajności.
Uni-MoE jako zunifikowany model multimodalny
Uni-MoE to zunifikowany multimodalny duży model językowy oparty na architekturze MoE, zdolny do obsługi szerokiego wachlarza modalności i ekspertów. Ramy Uni-MoE wprowadzają rzadką architekturę MoE do dużych modeli językowych, aby uczynić proces treningu i inferencji bardziej efektywnym, wykorzystując równoległość modeli na poziomie ekspertów oraz danych. Ponadto, aby zwiększyć uogólnienie i współpracę między ekspertami, Uni-MoE wprowadza progresywną strategię treningową, która składa się z trzech etapów.
Etapy treningu Uni-MoE
W pierwszym etapie, Uni-MoE osiąga wyrównanie między modalnościami za pomocą różnych konektorów dla danych wielomodalnych. W drugim etapie aktywowane są preferencje komponentów ekspertów poprzez trening ekspertów specyficznych dla modalności z użyciem danych instrukcyjnych. W końcu, model Uni-MoE implementuje technikę uczenia LoRA (Low-Rank Adaptation) na mieszanych danych instrukcyjnych, aby dostroić model.
Wyniki eksperymentalne Uni-MoE
Wyniki eksperymentalne wykazały, że Uni-MoE znacząco redukuje uprzedzenia w obsłudze mieszanych zestawów danych wielomodalnych i poprawia współpracę między ekspertami oraz uogólnienie. Uni-MoE wykorzystuje kodowanie różnych modalności za pomocą specyficznych enkoderów modalności, które są następnie mapowane na przestrzeń reprezentacji językowej dużych modeli językowych za pomocą projektowanych konektorów. Uni-MoE integruje rzadkie warstwy MoE wewnątrz głównego bloku dużego modelu językowego, co umożliwia zrozumienie wielu modalności przy aktywowaniu jedynie części parametrów podczas inferencji.
Architektura i strategia treningowa
Architektura Uni-MoE wykorzystuje zunifikowaną reprezentację modalności w przestrzeni językowej dużego modelu językowego, co jest możliwe dzięki trzem etapom treningowym:
- W pierwszym etapie stosowane są pary obraz/dźwięk/mowa-język do trenowania odpowiednich konektorów.
- W drugim etapie trenowani są eksperci specyficzni dla modalności z wykorzystaniem danych wielomodalnych, co poprawia ich kompetencje w swoich dziedzinach.
- W trzecim etapie integrowane są wyważone eksperckie wagi do warstw MoE i całość jest trenowana z użyciem mieszanych danych instrukcyjnych.
Nowe możliwości i przewaga Uni-MoE
Uni-MoE otwiera nowe możliwości dla tworzenia wydajnych, potężnych i zunifikowanych multimodalnych dużych modeli językowych, wykorzystując architekturę MoE. Eksperymenty wykazały, że Uni-MoE przewyższa tradycyjne modele w zadaniach rozumienia obraz-tekst, obraz-dźwięk oraz innych skomplikowanych zadaniach multimodalnych, oferując bardziej stabilne i szybsze konwergencje.
Przełom w dziedzinie skalowania modeli językowych
Uni-MoE stanowi przełom w dziedzinie skalowania dużych modeli językowych, łącząc efektywność modeli MoE z nowoczesnymi technikami trenowania wielomodalnych danych. Dzięki tej innowacyjnej architekturze, przyszłość dużych modeli językowych staje się coraz bardziej obiecująca, umożliwiając efektywne przetwarzanie różnorodnych modalności przy znacznie niższych kosztach obliczeniowych.