Nowy model sCM – innowacyjne podejście do generowania wideo

Eksperci zespołu OpenAI opracowali nowy model ciągłej konsystencji czasu (sCM), który pozwala generować materiały wideo nawet 50 razy szybciej niż obecnie stosowane modele. Cheng Lu i Yang Song opisali ten model w artykule na serwerze arXiv oraz opublikowali wprowadzenie do swojego podejścia na stronie internetowej firmy.

Rola modeli dyfuzji w generacji treści wizualnych

Modele dyfuzji, stosowane w uczeniu maszynowym, są popularnym typem zmiennych modeli generatywnych, zwanych także modelami probabilistycznymi dyfuzji lub modelami generatywnymi opartymi na skorelowaniu. Standardowo modele te zawierają trzy kluczowe elementy: proces przód-tył oraz procedurę próbkowania, co stanowi fundament generacji wizualnej, np. obrazów czy wideo. Zastosowanie znajduje się także w innych dziedzinach, jak generacja dźwięku.

Skalowanie mocy przetwarzania w modelach dyfuzji

Większość modeli dyfuzji działa w oparciu o ogromne zbiory danych, wykonując setki kroków, aby stworzyć ostateczny produkt. Stąd też generowanie zajmuje im zwykle chwilę. W przypadku nowego modelu opracowanego przez Lu i Song, czas ten został jednak radykalnie skrócony dzięki zredukowaniu liczby kroków do dwóch, co bez utraty jakości materiału umożliwia szybkie generowanie treści.

Szybsze generowanie wideo dzięki nowym parametrom

Nowy model wykorzystuje ponad 1,5 miliarda parametrów, co pozwala na wygenerowanie przykładowego wideo w ułamku sekundy, używając zaledwie jednej jednostki GPU A100. To działanie sprawia, że model ten jest blisko 50 razy szybszy niż tradycyjne rozwiązania dostępne na rynku.

Optymalizacja mocy obliczeniowej

Jedną z istotnych cech nowego podejścia jest również zmniejszone zapotrzebowanie na moc obliczeniową. Wzrost zastosowania aplikacji opartych na AI stanowi wyzwanie pod względem zużycia energii i zasobów, a model sCM jest odpowiedzią na tę potrzebę optymalizacji.

Testy porównawcze i możliwości na przyszłość

Twórcy zwracają uwagę, że ich model został już przetestowany porównawczo z innymi modelami, zarówno tymi aktualnie stosowanymi, jak i nowo opracowywanymi przez inne zespoły. Wyniki tych testów pokazują, że nowa technologia otwiera drzwi do aplikacji generatywnych w czasie rzeczywistym, co może mieć szerokie zastosowanie w przyszłości.

Tags:ai, generatywna ai, modele, openai, sztuczna inteligencja

Energia i efektywność AI dzięki Maszynie Tsetlina

Ulepszone modele od Stability AI

Superszybki model sCM od OpenAI