Nowa generacja modeli językowych od Alibaba Cloud
Alibaba Cloud, będące częścią chińskiego giganta e-commerce Alibaba, od dłuższego czasu rozwija swoją linię dużych modeli językowych (LLM) pod marką „Tongyi Qianwen” (w skrócie Qwen). W sierpniu 2023 roku firma wypuściła na rynek modele Qwen-7B, Qwen-72B oraz Qwen-1.8B, a także ich wersje multimodalne, takie jak Qwen-Audio oraz Qwen-VL. W czerwcu 2024 roku Alibaba Cloud zaprezentowało nową generację modelu pod nazwą Qwen2, oferującą pięć wariantów o różnych parametrach, od 0.5B do 72B.
Popularność modeli Qwen
Modele te szybko zdobyły popularność, szczególnie w Chinach, gdzie ponad 90 tysięcy przedsiębiorstw zaadoptowało je do swoich operacji już w pierwszym roku dostępności. Jednakże, pomimo początkowego sukcesu, dynamika rozwoju w branży sztucznej inteligencji sprawiła, że modele Qwen zostały z czasem przyćmione przez konkurencyjne rozwiązania zarówno open-source, jak i nie.
Qwen2-Math: specjalizacja w matematyce
Na tle tego wyścigu technologicznego wyróżnia się najnowszy produkt Alibaba Cloud – Qwen2-Math. Jest to seria modeli LLM specjalizujących się w matematyce, opracowana z myślą o języku angielskim. Najbardziej zaawansowany wariant, Qwen2-Math-72B-Instruct, osiąga imponujący wynik 84% na benchmarku MATH, który obejmuje 12,500 trudnych zadań matematycznych.
Przewaga Qwen2-Math nad konkurencją
Model Qwen2-Math-72B-Instruct przewyższa w testach inne znane modele, takie jak OpenAI GPT-4o, Anthropic Claude 3.5 Sonnet, a nawet Google Math-Gemini Specialized 1.5 Pro. Co więcej, w teście GSM8K, obejmującym zadania z matematyki na poziomie szkoły podstawowej, model ten osiąga wynik 96,7%. W benchmarku matematyki na poziomie akademickim model ten uzyskał 47,8%, co również plasuje go na czołowej pozycji.
Brak porównania z Microsoft Orca-Math
Warto zauważyć, że w swoich porównaniach Alibaba nie uwzględniło modelu Orca-Math, wypuszczonego przez Microsoft w lutym 2024 roku, który zbliża się wynikami do modelu Qwen2-Math-7B-Instruct, osiągając 86,81% w porównaniu do 89,9% dla Qwen-2-Math-7B-Instruct.
Imponujące osiągnięcia najmniejszych wariantów Qwen2-Math
Nawet najmniejszy wariant Qwen2-Math, o liczbie parametrów wynoszącej 1,5 miliarda, osiąga imponujące wyniki: 84,2% na GSM8K oraz 44,2% na poziomie akademickim. Oznacza to, że model ten, mimo mniejszych rozmiarów, jest w stanie konkurować z większymi modelami.
Zastosowanie modeli matematycznych w praktyce
Modele matematyczne, takie jak Qwen2-Math, mają za zadanie wspomóc osoby i organizacje w rozwiązywaniu złożonych problemów matematycznych. Dotychczas wiele LLM-ów miało trudności z precyzyjnym rozwiązywaniem problemów matematycznych, pomimo że matematyka jest podstawą kodowania i programowania. Qwen2-Math stawia sobie za cel zmienić ten stan rzeczy, dostarczając narzędzia, które mogą być bardziej niezawodne w kontekście pracy z liczbami i równaniami.
Licencja Qwen2-Math
Chociaż Qwen2-Math nie jest w pełni open-source, jego licencja jest wystarczająco elastyczna, aby umożliwić komercyjne wykorzystanie przez wiele firm, nawet tych większych. Użytkownicy komercyjni muszą jedynie uzyskać dodatkowe zezwolenie, jeśli ich aplikacja przekracza 100 milionów aktywnych użytkowników miesięcznie.