Trudności w rozróżnianiu głosów AI i ludzkich

Badania wykazują, że ludzie mają trudności z rozróżnieniem głosów generowanych przez sztuczną inteligencję (AI) od głosów ludzkich, mimo że ich mózgi reagują inaczej na każdy z tych typów głosu. Wyniki te mają istotne implikacje dla technologii i etyki.

Ograniczone umiejętności rozpoznawania głosów

Ludzie nie są zbyt dobrzy w rozpoznawaniu, czy głos należy do człowieka, czy został wygenerowany przez AI, ale nasze mózgi reagują na te głosy inaczej. Badania, które zostaną zaprezentowane 25 czerwca na Forum Federacji Europejskich Towarzystw Neuronaukowych (FENS) 2024, wskazują na te różnice.

Zaawansowanie technologii AI

Badania prowadzone przez doktorantkę Christine Skjegstad oraz profesora Saschę Frühholza z Uniwersytetu w Oslo wykazały, że technologie AI potrafią już niemal doskonale naśladować ludzkie głosy. Możliwe jest sklonowanie głosu danej osoby zaledwie na podstawie kilku sekund nagrania. Ta technologia bywa wykorzystywana przez oszustów, którzy podszywają się pod bliskich osób, aby wyłudzić pieniądze.

Przebieg badania

W badaniu wzięło udział 43 uczestników, którzy słuchali głosów ludzkich i AI wyrażających pięć różnych emocji: neutralność, złość, strach, radość i przyjemność. Uczestnicy mieli za zadanie rozpoznać, czy głos był syntetyczny czy naturalny, a także ocenić jego naturalność, wiarygodność i autentyczność. W tym czasie ich mózgi były monitorowane za pomocą funkcjonalnego rezonansu magnetycznego (fMRI), który mierzy zmiany przepływu krwi w mózgu.

Wyniki rozpoznawania głosów

Uczestnicy prawidłowo identyfikowali ludzkie głosy w 56% przypadków, a głosy AI w 50,5% przypadków. Największe trudności sprawiały im głosy neutralne – aż 75% badanych poprawnie rozpoznało neutralny głos AI, podczas gdy tylko 23% poprawnie rozpoznało neutralny głos ludzki. W przypadku radosnych głosów ludzkich, poprawna identyfikacja wynosiła 78%, natomiast dla radosnych głosów AI – tylko 32%.

Reakcje mózgu na różne typy głosów

Analiza obrazów mózgu wykazała, że głosy ludzkie wywoływały silniejsze reakcje w obszarach mózgu związanych z pamięcią (prawy hipokamp) i empatią (prawy dolny zakręt czołowy), natomiast głosy AI bardziej aktywowały obszary odpowiedzialne za wykrywanie błędów (prawy przedni środkowy zakręt kory obręczy) oraz regulację uwagi (prawa grzbietowo-boczna kora przedczołowa).

Uprzedzenia percepcyjne

Christine Skjegstad podkreśla, że wyniki sugerują trudności w dokładnym rozpoznawaniu głosów AI, a także wskazują na pewne uprzedzenia percepcyjne – głosy neutralne częściej identyfikowane były jako AI, a radosne jako ludzkie. Może to wynikać z naszej znajomości kobiecej asystentki głosowej, takich jak Siri czy Alexa.

Znaczenie badań nad reakcjami mózgu

Profesor Richard Roche z Uniwersytetu w Maynooth podkreśla, że badania nad reakcjami mózgu na głosy AI są kluczowe, ponieważ technologia ta rozwija się w szybkim tempie. Zrozumienie tych reakcji pomoże w opracowaniu polityk i wytycznych etycznych. Choć istnieje ryzyko wykorzystania tej technologii do oszustw, ma ona również potencjalne korzyści, takie jak tworzenie zastępczych głosów dla osób, które utraciły swój naturalny głos, czy wykorzystanie w terapii niektórych schorzeń psychicznych.

Tags:ai, badania, dźwięk, głos, sztuczna inteligencja

Deepfake czyli na granicy rzeczywistości i AI

Droga OpenAI do AGI

Badania nad naśladowaniem głosu ludzkiego przez AI