Nowa metoda treningu AI

Badania przeprowadzone przez Google DeepMind wprowadziły nową metodę przyspieszania treningu sztucznej inteligencji, znacząco redukując zasoby obliczeniowe i czas potrzebny na realizację tego zadania. Ta nowa metoda może uczynić rozwój AI zarówno szybszym, jak i tańszym, co może przynieść korzyści dla środowiska.

Wydajność modelu JEST

Nowe podejście, określane jako multimodalne uczenie kontrastowe z wspólnym wyborem przykładów (JEST), przewyższa modele na najwyższym poziomie, wymagając nawet 13 razy mniej iteracji i 10 razy mniej obliczeń. W branży AI, znanej z wysokiego zużycia energii, taka innowacja może znacząco zmniejszyć obciążenie energetyczne.

Wyzwania energetyczne systemów AI

Systemy AI na dużą skalę, takie jak ChatGPT, wymagają ogromnej mocy obliczeniowej, co z kolei pociąga za sobą duże zużycie energii i wody do chłodzenia tych systemów. Przykładowo, zużycie wody przez Microsoft wzrosło o 34% w latach 2021-2022 z powodu zwiększonych wymagań obliczeniowych AI.

Prognozy Międzynarodowej Agencji Energetycznej

Międzynarodowa Agencja Energetyczna (IEA) prognozuje, że zużycie energii elektrycznej przez centra danych podwoi się w latach 2022-2026, co przypomina energetyczne wyzwania związane z kryptowalutami. Jednak metody takie jak JEST mogą być rozwiązaniem, optymalizując wybór danych do treningu AI i redukując potrzebne zasoby.

Skuteczność techniki JEST

Jeśli ta technika okaże się skuteczna na dużą skalę, trenerzy AI będą potrzebować tylko ułamka mocy używanej obecnie do trenowania modeli. To oznacza, że mogą tworzyć bardziej zaawansowane narzędzia AI przy użyciu tych samych zasobów lub zużywać mniej zasobów do rozwijania nowych modeli.

Selekcja danych do treningu

JEST działa poprzez wybieranie komplementarnych partii danych, maksymalizując zdolność modelu AI do nauki. Zamiast wybierać indywidualne przykłady, algorytm ten bierze pod uwagę skład całego zestawu danych. Google zastosowało podobne podejście, co okazało się skuteczne.

Multimodalne uczenie kontrastowe

Metoda ta wykorzystuje „multimodalne uczenie kontrastowe”, gdzie proces JEST identyfikuje zależności między punktami danych. Dzięki temu poprawia się szybkość i efektywność treningu AI, jednocześnie wymagając znacznie mniej mocy obliczeniowej.

Użycie modeli referencyjnych

Kluczowym elementem podejścia było użycie wstępnie wytrenowanych modeli referencyjnych do kierowania procesem wyboru danych. Technika ta pozwoliła modelowi skupić się na wysokiej jakości, dobrze skomponowanych zestawach danych, dodatkowo optymalizując efektywność treningu.

Wyniki eksperymentów

Eksperymenty wykazały solidne zyski wydajności w różnych benchmarkach. Na przykład, trening na popularnym zestawie danych WebLI za pomocą JEST pokazał znaczące ulepszenia w szybkości nauki i efektywności zasobów.

Odkrywanie wysoce przyswajalnych podzbiorów

Algorytm szybko odkrywał wysoce przyswajalne podzbiory danych, przyspieszając proces treningu poprzez skupienie się na konkretnych elementach danych, które dobrze do siebie pasują. Technika ta, określana jako „bootstrapping jakości danych”, kładzie nacisk na jakość, a nie ilość, co okazało się lepsze dla treningu AI.

Model referencyjny, trenowany na małym, kuratorsko dobranym zestawie danych, może skutecznie kierować selekcją dużo większego zestawu, pozwalając na trening modelu, który przewyższa jakość modelu referencyjnego w wielu zadaniach.

Tags:ai, deepmind, google, modele, sztuczna inteligencja, training, trenowanie

GenSQL czyli AI analizuje bazy danych

Tokenizacja a wydajność modeli AI

Google DeepMind przyspiesza trening AI