Zużycie tekstów przez AI
Systemy sztucznej inteligencji, takie jak ChatGPT, zużywają coraz większe ilości ludzkich tekstów, które są niezbędne do ich dalszego rozwoju. Nowe badania przeprowadzone przez grupę badawczą Epoch AI sugerują, że zapasy publicznie dostępnych danych tekstowych mogą się wyczerpać już w kolejnych latach.
Zjawisko złotej gorączki
Tamay Besiroglu, współautor badań, porównuje to zjawisko do „złotej gorączki”, która wyczerpuje ograniczone zasoby naturalne. W krótkiej perspektywie firmy technologiczne, takie jak OpenAI i Google, starają się zabezpieczyć wysokiej jakości źródła danych, podpisując umowy z serwisami takimi jak Reddit czy media. Jednak w dłuższej perspektywie może zabraknąć nowych tekstów, które mogłyby podtrzymać obecne tempo rozwoju AI, co zmusi firmy do sięgania po dane prywatne, takie jak e-maile, czy stosowania mniej wiarygodnych danych syntetycznych.
Skalowanie modeli AI
Besiroglu zauważa, że w miarę wyczerpywania się dostępnych danych, nie będzie możliwe efektywne skalowanie modeli AI. Już dwa lata temu zespół Epoch przewidywał, że wysokiej jakości teksty skończą się do 2026 roku. Od tego czasu jednak pojawiły się nowe techniki, które pozwalają lepiej wykorzystać dostępne dane.
Prezentacja badań
Najnowsze badania zespołu są recenzowane i mają być przedstawione na Międzynarodowej Konferencji na temat Uczenia Maszynowego w Wiedniu. Besiroglu przypomina, że ponad dekadę temu badacze zdali sobie sprawę, że rozszerzenie mocy obliczeniowej i zbiorów danych z internetu może znacznie poprawić wydajność systemów AI.
Trenowanie wyspecjalizowanych modeli
Jak twierdzi Nicolas Papernot z Uniwersytetu w Toronto, nie zawsze konieczne jest trenowanie coraz większych modeli. Zamiast tego można skupić się na modelach bardziej wyspecjalizowanych do konkretnych zadań. Jednakże Papernot wyraża obawy dotyczące trenowania systemów AI na danych generowanych przez same chatboty, co może prowadzić do degradacji jakości, znanej jako „model collapse”.
Problem kopiowania danych
Papernot porównuje to do kopiowania kopii dokumentu – każda kolejna kopia traci na jakości. Taka sytuacja może dodatkowo utrwalać błędy i uprzedzenia zawarte w oryginalnych danych. Dlatego tak ważne jest, aby teksty pisane przez ludzi pozostały kluczowym źródłem danych dla AI.
Otwartość Wikipedii na użycie treści
Wikimedia Foundation, która zarządza Wikipedią, mimo otwartości na użycie swoich treści przez firmy AI, również zauważa problem z utrzymaniem motywacji wolontariuszy w obliczu zalewu treści generowanych automatycznie.
Wyzwania dla deweloperów AI
Z perspektywy deweloperów AI, badania Epoch sugerują, że zatrudnienie milionów ludzi do tworzenia tekstów na potrzeby modeli AI „jest mało ekonomicznym sposobem” na poprawę ich wydajności. CEO OpenAI, Sam Altman, podczas niedawnego wydarzenia w ONZ, wspomniał, że firma eksperymentuje z generowaniem dużych ilości danych syntetycznych do treningu. Wyraził jednak wątpliwości co do skuteczności takiego podejścia w porównaniu z innymi metodami technicznymi.
Przyszłość rozwoju AI
Wobec powyższych wyzwań, przyszłość rozwoju systemów AI może zależeć od znalezienia nowych źródeł danych i innowacyjnych metod treningu modeli, które nie będą polegać wyłącznie na dostępnych publicznie tekstach.