Nowa generacja modeli językowych od Alibaba Cloud

Alibaba Cloud, będące częścią chińskiego giganta e-commerce Alibaba, od dłuższego czasu rozwija swoją linię dużych modeli językowych (LLM) pod marką „Tongyi Qianwen” (w skrócie Qwen). W sierpniu 2023 roku firma wypuściła na rynek modele Qwen-7B, Qwen-72B oraz Qwen-1.8B, a także ich wersje multimodalne, takie jak Qwen-Audio oraz Qwen-VL. W czerwcu 2024 roku Alibaba Cloud zaprezentowało nową generację modelu pod nazwą Qwen2, oferującą pięć wariantów o różnych parametrach, od 0.5B do 72B.

Popularność modeli Qwen

Modele te szybko zdobyły popularność, szczególnie w Chinach, gdzie ponad 90 tysięcy przedsiębiorstw zaadoptowało je do swoich operacji już w pierwszym roku dostępności. Jednakże, pomimo początkowego sukcesu, dynamika rozwoju w branży sztucznej inteligencji sprawiła, że modele Qwen zostały z czasem przyćmione przez konkurencyjne rozwiązania zarówno open-source, jak i nie.

Qwen2-Math: specjalizacja w matematyce

Na tle tego wyścigu technologicznego wyróżnia się najnowszy produkt Alibaba Cloud – Qwen2-Math. Jest to seria modeli LLM specjalizujących się w matematyce, opracowana z myślą o języku angielskim. Najbardziej zaawansowany wariant, Qwen2-Math-72B-Instruct, osiąga imponujący wynik 84% na benchmarku MATH, który obejmuje 12,500 trudnych zadań matematycznych.

Przewaga Qwen2-Math nad konkurencją

Model Qwen2-Math-72B-Instruct przewyższa w testach inne znane modele, takie jak OpenAI GPT-4o, Anthropic Claude 3.5 Sonnet, a nawet Google Math-Gemini Specialized 1.5 Pro. Co więcej, w teście GSM8K, obejmującym zadania z matematyki na poziomie szkoły podstawowej, model ten osiąga wynik 96,7%. W benchmarku matematyki na poziomie akademickim model ten uzyskał 47,8%, co również plasuje go na czołowej pozycji.

Brak porównania z Microsoft Orca-Math

Warto zauważyć, że w swoich porównaniach Alibaba nie uwzględniło modelu Orca-Math, wypuszczonego przez Microsoft w lutym 2024 roku, który zbliża się wynikami do modelu Qwen2-Math-7B-Instruct, osiągając 86,81% w porównaniu do 89,9% dla Qwen-2-Math-7B-Instruct.

Imponujące osiągnięcia najmniejszych wariantów Qwen2-Math

Nawet najmniejszy wariant Qwen2-Math, o liczbie parametrów wynoszącej 1,5 miliarda, osiąga imponujące wyniki: 84,2% na GSM8K oraz 44,2% na poziomie akademickim. Oznacza to, że model ten, mimo mniejszych rozmiarów, jest w stanie konkurować z większymi modelami.

Zastosowanie modeli matematycznych w praktyce

Modele matematyczne, takie jak Qwen2-Math, mają za zadanie wspomóc osoby i organizacje w rozwiązywaniu złożonych problemów matematycznych. Dotychczas wiele LLM-ów miało trudności z precyzyjnym rozwiązywaniem problemów matematycznych, pomimo że matematyka jest podstawą kodowania i programowania. Qwen2-Math stawia sobie za cel zmienić ten stan rzeczy, dostarczając narzędzia, które mogą być bardziej niezawodne w kontekście pracy z liczbami i równaniami.

Licencja Qwen2-Math

Chociaż Qwen2-Math nie jest w pełni open-source, jego licencja jest wystarczająco elastyczna, aby umożliwić komercyjne wykorzystanie przez wiele firm, nawet tych większych. Użytkownicy komercyjni muszą jedynie uzyskać dodatkowe zezwolenie, jeśli ich aplikacja przekracza 100 milionów aktywnych użytkowników miesięcznie.

Tags:ai, logika, matematyka, modele, qwen, sztuczna inteligencja

Nowa funkcja JSON w API OpenAI

Krótka charakterystyka Claude AI głównego rywala OpenAI

Lider w matematycznej AI Qwen2-Math