Wpływ tekstów generowanych przez maszyny na społeczeństwo
Od czterech lat teksty generowane przez maszyny coraz częściej wprowadzają ludzi w błąd. Od momentu wydania modelu GPT-2 w 2019 roku, narzędzia oparte na dużych modelach językowych (LLM) zyskują na precyzji w tworzeniu historii, artykułów informacyjnych, wypracowań i innych treści. Tak bardzo, że często trudno jest odróżnić tekst stworzony przez algorytm od tego napisanego przez człowieka.
Ryzyko nadużyć i negatywnych konsekwencji
Mimo że LLM są wykorzystywane do oszczędzania czasu i pobudzania kreatywności, ich potencjał stwarza również ryzyko nadużyć i negatywnych konsekwencji. Problem w identyfikacji tekstu generowanego przez maszyny tylko zwiększa to zagrożenie. Dlatego zarówno środowiska akademickie, jak i firmy starają się opracować metody wykrywania takich tekstów, używając do tego celu samych maszyn.
Metody wykrywania tekstów generowanych przez AI
Modele uczenia maszynowego mogą identyfikować subtelne wzorce w doborze słów i konstrukcji gramatycznych, które są nieuchwytne dla ludzkiej intuicji. Obecnie na rynku pojawia się wiele komercyjnych detektorów, które deklarują wysoką skuteczność wykrywania tekstów generowanych przez maszyny, sięgającą nawet 99%. Jednak pojawiają się wątpliwości, czy te obietnice są realistyczne.
Badania nad skutecznością detektorów
Profesor Chris Callison-Burch z Wydziału Informatyki i Liam Dugan, doktorant w jego zespole, przeprowadzili badania mające na celu zbadanie tych twierdzeń. Wyniki ich pracy, zaprezentowane na 62. dorocznym spotkaniu Association for Computational Linguistics, opublikowano na serwerze arXiv.
Powstanie zestawu danych RAID
Zespół badawczy stworzył zestaw danych nazwany Robust AI Detector (RAID), obejmujący ponad 10 milionów dokumentów, w tym przepisy kulinarne, artykuły informacyjne, wpisy na blogach i inne treści, zarówno generowane przez AI, jak i przez ludzi. RAID stał się pierwszym standardowym narzędziem do testowania skuteczności detektorów.
Rola rankingów w ocenie detektorów
Oprócz zestawu danych, badacze opracowali ranking, który publicznie ocenia skuteczność detektorów testowanych na RAID w sposób bezstronny i przejrzysty. Tworzenie rankingów stało się kluczowe w wielu dziedzinach uczenia maszynowego, takich jak wizja komputerowa, a teraz również w wykrywaniu tekstów generowanych przez AI.
Wpływ badań na rozwój narzędzi AI
Wkrótce po udostępnieniu zestawu RAID, jego popularność wśród firm zajmujących się rozwojem detektorów AI wzrosła. Przykładem jest firma Originality.ai, która skorzystała z zestawu danych RAID, aby poprawić swoje narzędzia wykrywania i zidentyfikować wcześniej nieujawnione słabości.
Ograniczenia obecnych detektorów
Mimo to, badania pokazują, że obecne detektory nie zawsze spełniają swoje zadania. Detektory szkolone na jednym modelu, na przykład ChatGPT, mogą być nieskuteczne w identyfikacji tekstów wygenerowanych przez inne modele, takie jak Llama. Ponadto, detektory szkolone na jednym rodzaju tekstu, jak na przykład artykuły informacyjne, mogą zawodzić przy analizie innych typów treści, takich jak przepisy kulinarne czy teksty kreatywne.
Ataki na detektory i ich konsekwencje
Problem nie ogranicza się jedynie do ograniczeń w szkoleniu detektorów. Badania wykazały, że proste ataki, takie jak zamiana liter na podobnie wyglądające symbole, mogą zmylić detektor, pozwalając tekstowi wygenerowanemu przez AI przejść niezauważonym. Przeprowadzone testy wykazały, że nawet drobne zmiany, takie jak dodanie spacji, wymiana liter czy użycie synonimów, mogą skutecznie osłabić skuteczność detektorów.