
Następna generacja modeli Llama od Meta
Meta zaprezentowała rodzinę modeli Llama 4, wyznaczając nowy standard w dziedzinie sztucznej inteligencji. Modele Scout, Maverick oraz zapowiedziany Behemoth to pierwsze otwarte, multimodalne modele z bezprecedensową długością kontekstu.
Multimodalność i wydajność w jednym
Model Llama 4 Scout, wyposażony w 17 miliardów aktywnych parametrów i 10 milionów tokenów kontekstu, oferuje doskonałą jakość przy działaniu na pojedynczym NVIDIA H100 GPU. Llama 4 Maverick z 400 miliardami parametrów i 1 milionem tokenów kontekstu przewyższa konkurencję, taką jak GPT-4o i Gemini 2.0, w zadaniach związanych z kodowaniem, rozumowaniem i multimodalnym rozumieniem.
Behemoth jako nauczyciel
Model Llama 4 Behemoth, wciąż w trakcie trenowania, posiada niemal 2 biliony parametrów i służy jako nauczyciel dla mniejszych modeli. Jego wyniki na benchmarkach STEM przewyższają GPT-4.5, Claude 3.7 i Gemini 2.0 Pro. Dzięki technice współdestylacji możliwe było przeniesienie jego możliwości na Scouta i Mavericka.
Nowa architektura MoE
Zastosowanie mixture-of-experts (MoE) umożliwia aktywację tylko części parametrów w czasie inferencji, co przekłada się na większą efektywność przy niższym koszcie. Architektura ta pozwala również na płynną integrację danych tekstowych, obrazowych i wideo.
Wydajność i długość kontekstu
Scout wykorzystuje interleaved attention bez pozycyjnych embeddingów, co wspiera generalizację do ekstremalnie długich kontekstów. Maverick, z 128 ekspertami, łączy wydajność i precyzję, osiągając najwyższe noty w testach takich jak LMArena.
Strategie trenowania i dostrajania
Meta zastosowała etapowe podejście: SFT > RL > DPO, eliminując zbyt łatwe dane i koncentrując się na trudniejszych przykładach. Dzięki temu uzyskano modele o wyższych zdolnościach rozumowania i lepszej równowadze między multimodalnością a konwersacyjną spójnością.
Zaawansowane możliwości wizualne
Llama 4 Scout został dostrojony do pracy z obrazami, oferując precyzyjne osadzanie wizualne (image grounding). Modele są trenowane na danych obrazowych i wideo, co umożliwia im skuteczną analizę treści wizualnych i ich integrację z tekstem.
Globalne podejście i językowa różnorodność
Nowa generacja modeli trenowana była na ponad 200 językach, z czego ponad 100 zawierało ponad miliard tokenów. To ogromne zróżnicowanie danych zwiększa ich uniwersalność i możliwości adaptacyjne w środowiskach wielojęzycznych i międzykulturowych.
Zabezpieczenia i etyczne podejście
Wprowadzono Llama Guard oraz Prompt Guard, które wykrywają potencjalnie niebezpieczne dane wejściowe i wyjściowe. Systemy te wspierają twórców aplikacji edukacyjnych, zapewniając zgodność modeli z normami bezpieczeństwa.
Nowe standardy w testowaniu ryzyka
Meta wdrożyła zaawansowane metody red-teamingu, w tym Generative Offensive Agent Testing (GOAT), by wykrywać luki i potencjalne zagrożenia w czasie rzeczywistym. Automatyzacja pozwala specjalistom na skupienie się na nowych obszarach ryzyka.
Równowaga i neutralność modeli
Llama 4 wykazuje zmniejszoną stronniczość w odpowiedziach na kontrowersyjne tematy. Odsetek odmów odpowiedzi spadł z 7% do poniżej 2%, a modele są bardziej zrównoważone pod względem przedstawianych punktów widzenia.