Postępy w architekturze modeli językowych

Ostatnie postępy w architekturze i wydajności multimodalnych dużych modeli językowych (MLLM) podkreśliły znaczenie skalowalnych danych i modeli w celu poprawy ich wydajności. Chociaż podejście to zwiększa skuteczność, wiąże się z wysokimi kosztami obliczeniowymi, które ograniczają praktyczność i użyteczność takich rozwiązań. Modele typu Mixture of Experts (MoE) okazały się skuteczną alternatywą do skalowania modeli tekst-obraz i dużych modeli językowych, oferując znacznie niższe koszty obliczeniowe przy jednoczesnym zachowaniu wysokiej wydajności.

Uni-MoE jako zunifikowany model multimodalny

Uni-MoE to zunifikowany multimodalny duży model językowy oparty na architekturze MoE, zdolny do obsługi szerokiego wachlarza modalności i ekspertów. Ramy Uni-MoE wprowadzają rzadką architekturę MoE do dużych modeli językowych, aby uczynić proces treningu i inferencji bardziej efektywnym, wykorzystując równoległość modeli na poziomie ekspertów oraz danych. Ponadto, aby zwiększyć uogólnienie i współpracę między ekspertami, Uni-MoE wprowadza progresywną strategię treningową, która składa się z trzech etapów.

Etapy treningu Uni-MoE

W pierwszym etapie, Uni-MoE osiąga wyrównanie między modalnościami za pomocą różnych konektorów dla danych wielomodalnych. W drugim etapie aktywowane są preferencje komponentów ekspertów poprzez trening ekspertów specyficznych dla modalności z użyciem danych instrukcyjnych. W końcu, model Uni-MoE implementuje technikę uczenia LoRA (Low-Rank Adaptation) na mieszanych danych instrukcyjnych, aby dostroić model.

Wyniki eksperymentalne Uni-MoE

Wyniki eksperymentalne wykazały, że Uni-MoE znacząco redukuje uprzedzenia w obsłudze mieszanych zestawów danych wielomodalnych i poprawia współpracę między ekspertami oraz uogólnienie. Uni-MoE wykorzystuje kodowanie różnych modalności za pomocą specyficznych enkoderów modalności, które są następnie mapowane na przestrzeń reprezentacji językowej dużych modeli językowych za pomocą projektowanych konektorów. Uni-MoE integruje rzadkie warstwy MoE wewnątrz głównego bloku dużego modelu językowego, co umożliwia zrozumienie wielu modalności przy aktywowaniu jedynie części parametrów podczas inferencji.

Architektura i strategia treningowa

Architektura Uni-MoE wykorzystuje zunifikowaną reprezentację modalności w przestrzeni językowej dużego modelu językowego, co jest możliwe dzięki trzem etapom treningowym:

W pierwszym etapie stosowane są pary obraz/dźwięk/mowa-język do trenowania odpowiednich konektorów.
W drugim etapie trenowani są eksperci specyficzni dla modalności z wykorzystaniem danych wielomodalnych, co poprawia ich kompetencje w swoich dziedzinach.
W trzecim etapie integrowane są wyważone eksperckie wagi do warstw MoE i całość jest trenowana z użyciem mieszanych danych instrukcyjnych.

Nowe możliwości i przewaga Uni-MoE

Uni-MoE otwiera nowe możliwości dla tworzenia wydajnych, potężnych i zunifikowanych multimodalnych dużych modeli językowych, wykorzystując architekturę MoE. Eksperymenty wykazały, że Uni-MoE przewyższa tradycyjne modele w zadaniach rozumienia obraz-tekst, obraz-dźwięk oraz innych skomplikowanych zadaniach multimodalnych, oferując bardziej stabilne i szybsze konwergencje.

Przełom w dziedzinie skalowania modeli językowych

Uni-MoE stanowi przełom w dziedzinie skalowania dużych modeli językowych, łącząc efektywność modeli MoE z nowoczesnymi technikami trenowania wielomodalnych danych. Dzięki tej innowacyjnej architekturze, przyszłość dużych modeli językowych staje się coraz bardziej obiecująca, umożliwiając efektywne przetwarzanie różnorodnych modalności przy znacznie niższych kosztach obliczeniowych.

Tags:ai, modele językowe, sztuczna inteligencja

Wiz i Angular czyli nowe supercombo w Web Developmencie

Nowa generacja robotów AI z systemem CPMI

Uni-MoE czyli skalowanie multimodalnych modeli językowych