Roboty w rzeczywistych środowiskach
Aby skutecznie wykonywać zadania w rzeczywistych środowiskach, takich jak domy, biura czy przestrzenie publiczne, roboty muszą umieć precyzyjnie chwytać i manipulować różnorodnymi obiektami. Ostatnie lata przyniosły rozwój modeli opartych na uczeniu maszynowym, które mają na celu zwiększenie umiejętności manipulacyjnych robotów. Pomimo osiągnięcia dobrych wyników, wiele z tych modeli wymaga wstępnego treningu na dużych zbiorach danych, głównie wizualnych, jak zdjęcia i filmy. Naukowcy z Carnegie Mellon University i Olin College of Engineering zbadali możliwość wykorzystania mikrofonów kontaktowych zamiast konwencjonalnych czujników dotykowych, co pozwala na wykorzystanie danych audio do trenowania modeli uczenia maszynowego.
Nowatorskie podejście badawcze
W swoim artykule, opublikowanym na serwerze arXiv, badacze Jared Mejia, Victoria Dean i ich współpracownicy zaprezentowali nowatorskie podejście, które może otworzyć nowe możliwości dla wielkoskalowego pretreningu wielozmysłowego tych modeli. Badacze zauważyli, że chociaż pretrening na dużych zbiorach danych jest korzystny dla uczenia robotów, obecne paradygmaty skupiają się głównie na wizualnych reprezentacjach, podczas gdy reprezentacje dla innych modalności są trenowane od podstaw.
Wykorzystanie mikrofonów kontaktowych
Zespół badawczy postanowił zapełnić tę lukę, wykorzystując mikrofony kontaktowe jako alternatywę dla tradycyjnych czujników dotykowych. W ramach swojego badania, badacze przeprowadzili pretrening samonadzorowanego podejścia uczenia maszynowego na bazie danych audiowizualnych z zestawu Audioset, który zawiera ponad 2 miliony 10-sekundowych klipów dźwiękowych i muzycznych zebranych z internetu. Pretrenowany model opiera się na technice dyskryminacji instancji audiowizualnych (AVID), która potrafi rozróżniać różne rodzaje danych audiowizualnych.
Ocena nowego podejścia
Badacze ocenili swoje podejście w serii testów, w których robot miał za zadanie wykonywać rzeczywiste zadania manipulacyjne, opierając się na maksymalnie 60 demonstracjach dla każdego zadania. Wyniki były bardzo obiecujące – model przewyższał polityki manipulacji robotów, które polegały wyłącznie na danych wizualnych, szczególnie w przypadkach, gdy obiekty i lokalizacje znacznie różniły się od tych zawartych w danych treningowych.
Zalety mikrofonów kontaktowych
Główna zaleta ich podejścia polega na tym, że mikrofony kontaktowe rejestrują informacje audio, co pozwala na wykorzystanie wielkoskalowego pretreningu audiowizualnego do uzyskania reprezentacji, które zwiększają wydajność manipulacji robotycznych. Jest to pierwsze podejście, które wykorzystuje wielkoskalowy pretrening wielozmysłowy do manipulacji robotów.
Perspektywy przyszłości
W przyszłości badania Mejii, Dean i ich współpracowników mogą otworzyć nowe możliwości w realizacji zaawansowanej manipulacji robotów z wykorzystaniem pretrenowanych modeli uczenia maszynowego multimodalnego. Proponowane podejście może być dalej rozwijane i testowane na szerszym zakresie rzeczywistych zadań manipulacyjnych.
Obszary dalszych badań
Dalsze prace mogą skupić się na określeniu, które właściwości zbiorów danych pretreningowych są najbardziej sprzyjające dla nauki audiowizualnych reprezentacji polityk manipulacyjnych. Obiecującym kierunkiem byłoby również wyposażenie efektorów końcowych w czujniki wizjo-dotykowe i mikrofony kontaktowe z pretrenowanymi reprezentacjami audio, aby wyposażyć roboty w bogatsze zrozumienie ich otoczenia.