Postęp w uczeniu maszynowym i jego zastosowania
W ostatnich latach modele oparte na uczeniu maszynowym, które autonomicznie generują różnorodne typy treści, znacząco się rozwinęły. Te innowacyjne ramy pracy otwierają nowe możliwości nie tylko w dziedzinie filmowej, ale również w kompilacji zestawów danych do trenowania algorytmów robotycznych.
Nowe podejście do generacji wideo
Podczas gdy niektóre istniejące modele są w stanie generować realistyczne lub artystyczne obrazy na podstawie opisów tekstowych, rozwój sztucznej inteligencji, która może generować wideo z poruszającymi się ludzkimi postaciami na podstawie ludzkich instrukcji, był do tej pory bardziej wymagający. Naukowcy z Pekińskiego Instytutu Technologii, BIGAI oraz Uniwersytetu Pekińskiego zaprezentowali obiecujące nowe podejście, które efektywnie radzi sobie z tym zadaniem.
Model HUMANIZE i jego możliwości
Zhu i jego koledzy opracowali nowy model generatywny, nazwany HUMANIZE, który został rozwinięty o zdolności generalizacji, pozwalające na tworzenie realistycznych ruchów na nowo postawione problemy, na przykład wykonanie ruchu „połóż się na podłodze”, po nauczeniu modelu generowania ruchu „połóż się na łóżku”.
Etapowe budowanie modelu
Metoda składa się z dwóch etapów: modelu dyfuzji affordance (ADM), który przewiduje mapę affordance sceny z opisu językowego, oraz modelu dyfuzji affordance-do-ruchu (AMDM), który generuje ruch ludzki na podstawie opisu i wytworzonej wcześniej mapy affordance. Ramy te mają kilka znaczących zalet nad wcześniej wprowadzonymi podejściami do generowania ruchów ludzkich na podstawie języka. Nie tylko klarownie określają region związany z opisem użytkownika, co poprawia ich zdolności do uzasadnienia w 3D, ale również tworzą przekonujące ruchy przy ograniczonych danych treningowych.
Zrozumienie geometrii i generalizacja
Mapy wykorzystywane przez nasz model również pogłębiają zrozumienie geometrycznych powiązań między scenami a ruchami, wspierając jego zdolność do generalizacji przez różnorodne geometrie scen. Zhu i współpracownicy mają nadzieję, że ich model oraz podejście będą inspirować do innowacji w społeczności badawczej AI generatywnego.
Rozwój modelu i jego przyszłe zastosowania
Rozwój tego modelu może wkrótce zostać dalej udoskonalony i zastosowany do różnych problemów rzeczywistych, takich jak produkcja realistycznych filmów animowanych przy użyciu AI lub generowanie realistycznych syntetycznych danych treningowych dla aplikacji robotycznych. Naduńskie badania skupią się na rozwiązaniu problemów z niedoborem danych poprzez lepsze strategie zbierania i anotacji danych interakcji człowiek-scena oraz na zwiększeniu wydajności wnioskowania modelu dyfuzji, co zwiększy jego praktyczną użyteczność.