AI a zdolności w zadaniach specjalistycznych
Zaawansowane modele językowe, takie jak ChatGPT, mogą wykonywać złożone zadania, w tym zdawać amerykański egzamin lekarski. Jednym z aspektów budzących zainteresowanie jest zdolność recenzentów do wykrycia, czy tekst został stworzony przez AI, oraz jak wpływa to na ich ocenę merytoryczną pracy. Zespół prowadzony przez Lee Schwamma z Yale School of Medicine postanowił przeanalizować ten temat, organizując konkurs na esej do czasopisma „Stroke”, w którym oceniano zarówno prace ludzkie, jak i generowane przez AI.
Wyniki badania nad identyfikacją AI
W badaniu odkryto, że recenzenci mieli trudności z poprawnym identyfikowaniem autorstwa esejów, gdy nie wiedzieli, kto je napisał. Jednak gdy podejrzewali, że autorem jest AI, znacznie rzadziej oceniali esej jako najlepszy na dany temat. Wyniki te podkreślają potrzebę opracowania polityk regulujących odpowiednie wykorzystanie AI w publikacjach naukowych, co Schwamm skomentował jako „pobudkę” dla redakcji naukowych.
Kryteria konkursowe i zastosowane modele AI
Do konkursu zaproszono czytelników czasopisma „Stroke”, którzy mogli nadsyłać eseje o długości do 1000 słów, bazujące na jednym z trzech kontrowersyjnych tematów dotyczących udaru mózgu. Otrzymano 22 teksty napisane przez ludzi, natomiast dla porównania wykorzystano cztery różne modele językowe AI, takie jak ChatGPT i Bard, które wygenerowały eseje na te same tematy.
Analiza cytowań i identyfikacja autora
Każdy esej został przeanalizowany pod kątem poprawności cytowań literatury, aby uniknąć sytuacji, w której błędy AI zdradzałyby ich autorstwo. Następnie prace trafiły do recenzentów, którzy mieli przypisać autorstwo (człowiek lub AI), ocenić jakość i perswazyjność tekstu oraz wybrać najlepszy esej na dany temat. Zaskakująco, poprawność przypisania autorstwa wyniosła jedynie 50%, co oznacza, że recenzenci trafiali w autora równie często, jak przy rzucie monetą.
Przewaga AI w ocenie jakościowej
Co ciekawe, AI-eseje uzyskały wyższe oceny jakościowe niż prace napisane przez ludzi. Analiza wielowymiarowa ujawniła, że większa perswazyjność eseju była czynnikiem zwiększającym prawdopodobieństwo przypisania go AI. Oznacza to, że im bardziej przekonywujący wydawał się tekst, tym większe było podejrzenie, że jego autorem jest AI.
Sceptycyzm wobec AI jako autora
Kiedy recenzenci uznawali esej za stworzony przez AI, tylko w 4% przypadków wybierali go jako najlepszy na dany temat, co sugeruje, że postrzeganie autorstwa przez AI wywoływało pewien sceptycyzm wobec jakości treści. Badanie zwraca uwagę na trudności związane z oceną tekstów generowanych przez AI oraz na uprzedzenia recenzentów wobec takich treści.
Wątpliwości związane z rolą AI w publikacjach
W miarę rozwoju LLM-ów recenzenci mogą mieć coraz większe trudności z odróżnianiem tekstów AI od tych pisanych przez ludzi. Sytuacja ta nasuwa pytania dotyczące roli AI w naukowych publikacjach. Niektóre czasopisma, jak Science, początkowo zabraniały używania AI w tekstach naukowych, jednak później zezwoliły na deklarację jego wykorzystania.
Przyszłość wykorzystania AI w nauce
Schwamm zaznacza, że użycie LLM-ów nie musi być postrzegane jako niesprawiedliwe czy obniżające wartość pracy naukowej. Przeciwnie, AI może stać się istotnym narzędziem w procesie tworzenia, wymagającym jedynie dodatkowej weryfikacji faktograficznej przez autora. Takie podejście traktuje AI jako wsparcie, podobnie jak funkcje autokorekty czy edytory tekstu, które również stanowią narzędzia pomocne w pisaniu.
Korzyści dla badaczy spoza obszaru języka angielskiego
Technologia ta może być szczególnie przydatna dla naukowców, którzy nie są rodzimymi użytkownikami języka angielskiego. Wprowadzenie AI do procesów naukowych może w pewnym sensie zniwelować różnice, pozwalając na łatwiejsze przekazanie wyników badań szerszemu gronu odbiorców.