
Grok-3: Nowy model AI Elona Muska
Elon Musk i jego xAI właśnie zaprezentowali Grok-3, a branża AI nie pozostaje obojętna. Model już teraz zdobywa uznanie, przekraczając 1 400 ELO w LLM Arena i pokonując konkurencję w wybranych testach. Czy to przełomowy moment w wyścigu AI?
Kreatywne pisanie: Grok-3 detronizuje Claude
Testy wykazały, że Grok-3 przewyższa Claude 3.5 Sonnet w tworzeniu angażujących narracji. Jego historia o podróżniku w czasie wyróżniała się lepszym budowaniem świata i rozwinięciem postaci. Jednak nie obyło się bez potknięć – jedna z kluczowych scen była wymuszona i mało naturalna.
Podsumowanie dokumentów: kwestia preferencji
Grok-3 nie posiada wbudowanej funkcji czytania plików, ale potrafił podsumować 47-stronicowy raport IMF po wklejeniu tekstu. Choć generował poprawne streszczenia, to różnił się stylem od GPT-4o – Grok-3 jest bardziej konwersacyjny, podczas gdy model OpenAI oferuje bardziej analityczne podejście.
Brak cenzury: Grok-3 pozwala na więcej
Grok-3, podobnie jak jego poprzednik, jest najmniej ocenzurowanym modelem dostępnym na rynku. W przeciwieństwie do konkurencji, nie unika kontrowersyjnych tematów, lecz umiejętnie balansuje na granicy poprawności, unikając nadmiernych restrykcji.
Neutralność polityczna Grok-3
Podczas testów model wykazał brak wyraźnych skłonności politycznych. W przypadku spornych tematów, takich jak Tajwan czy konflikty międzynarodowe, prezentował wieloaspektowe analizy, zamiast sugerować jednoznaczne odpowiedzi, co odróżnia go od ChatGPT czy DeepSeek.
Programowanie: Grok-3 robi to lepiej
Testy kodowania wykazały, że Grok-3 potrafi pisać czysty i efektywny kod. Co ciekawe, zamiast popularnego języka Python, model wybrał HTML5 dla lepszej dostępności i łatwiejszego wdrożenia.
Matematyka: OpenAI i DeepSeek wciąż na czele
Choć Grok-3 radzi sobie z rozumowaniem matematycznym, to w testach FrontierMath ustępuje modelom OpenAI i DeepSeek. Jego obliczenia były poprawne, ale nie tak precyzyjne, jak w przypadku najlepszych modeli matematycznych.
Rozumowanie nieliczbowe: Grok-3 najszybszy
Model zdominował test logiczny na podstawie BIG-bench dataset, rozwiązując zadanie w zaledwie 67 sekund – znacznie szybciej niż DeepSeek R1 i OpenAI o3-mini.
Generowanie obrazów: Aurora kontra konkurencja
Grok-3 korzysta z własnego generatora obrazów – Aurora. Choć jest mniej zaawansowany niż MidJourney czy Stable Diffusion, to przewyższa DALL-E 3 pod względem jakości i mniejszej cenzury.
Wyszukiwanie informacji: szybkie, ale ogólne
Grok-3 oferuje szybsze wyszukiwanie niż Gemini czy OpenAI, lecz jego raporty są bardziej ogólne. Pod względem formatowania i głębokości analizy Google AI pozostaje liderem.