Nowa metoda rozpoznawania akcji w wideo

Badacze z MIT opracowali nową metodę, która ułatwia odnajdywanie konkretnych akcji w długich materiałach wideo. Technika ta może zrewolucjonizować procesy szkoleniowe online oraz wspomagać lekarzy w analizie nagrań diagnostycznych.

Instruktażowe filmy w internecie

W internecie dostępne są niezliczone filmy instruktażowe, uczące użytkowników, jak przygotować idealne naleśniki czy wykonać ratujący życie manewr Heimlicha. Jednak znalezienie konkretnej czynności w długim nagraniu może być trudne i czasochłonne. Aby uprościć ten proces, naukowcy z MIT oraz MIT-IBM Watson AI Lab opracowali metodę, która umożliwia komputerom automatyczne odnajdywanie poszukiwanych fragmentów wideo.

Tradycyjne podejścia do uczenia modeli

Tradycyjnie, modele uczące się identyfikowania akcji w wideo wymagają dużej ilości ręcznie oznaczonych danych wideo, co jest kosztowne i czasochłonne. Nowa metoda, opracowana przez zespół z MIT, wykorzystuje tylko same nagrania wideo oraz automatycznie generowane transkrypcje, co znacząco obniża koszty i przyspiesza proces uczenia modeli.

Analiza szczegółów i szerszego kontekstu

Model uczony jest rozpoznawania nieoznaczonych wideo na dwa sposoby: analizując szczegóły (informacje przestrzenne) oraz szerszy kontekst (informacje czasowe). Dzięki równoczesnemu treningowi na obu tych poziomach, metoda ta skuteczniej identyfikuje akcje w długich filmach, gdzie występuje wiele różnych czynności.

Zastosowanie metody w różnych dziedzinach

Metoda ta nie tylko usprawnia procesy szkoleniowe online, ale może być również użyteczna w medycynie, umożliwiając szybkie odnajdywanie kluczowych momentów w nagraniach procedur diagnostycznych. Technika ta polega na podziale procesu treningowego na dwa etapy: globalne reprezentacje całego wideo oraz lokalne reprezentacje specyficznych fragmentów wideo.

Nowy benchmark do oceny modeli

Aby ocenić skuteczność swojego podejścia, naukowcy stworzyli nowy benchmark do testowania modeli na dłuższych, nieedytowanych nagraniach. Wprowadzili nową technikę oznaczania, która polega na identyfikowaniu punktów styku obiektów, co przyspiesza proces oznaczania i redukuje koszty ludzkiej pracy. Wyniki testów pokazały, że metoda MIT jest bardziej precyzyjna w identyfikowaniu akcji niż inne techniki AI.

Plany na przyszłość

Naukowcy planują dalszy rozwój swojej metody, aby modele mogły automatycznie wykrywać, kiedy tekst i narracja są niezgodne, i przełączać się między różnymi modalnościami. Planują także rozszerzyć swoją technikę na dane audio, które często są silnie skorelowane z akcjami w wideo. Kate Saenko z Uniwersytetu Bostońskiego podkreśla, że praca ta stanowi znaczący krok naprzód w zrozumieniu wideo przez modele AI, porównując ją do postępu w rozumieniu obrazów przez modele takie jak ChatGPT.

Tags:ai, sztuczna inteligencja, video, wideo, wykrywanie wideo

AI zmienia kolejny zawód (analityk finansowy)

Alchemist czyli nowy model dyfuzji w generowaniu obrazów

Nowa metoda AI w rozpoznawaniu materiałów wideo