Znaczenie szczegółowego zrozumienia modeli AI
Szczegółowe zrozumienie działania modeli sztucznej inteligencji (AI) stanowi istotny krok naprzód w badaniach nad tym, jak te modele funkcjonują. W najnowszych badaniach udało się odkryć, w jaki sposób miliony koncepcji są reprezentowane w modelu Claude Sonnet, jednym z zaawansowanych modeli językowych. Jest to pierwszy przypadek, kiedy szczegółowo zbadano wnętrze nowoczesnego modelu AI wykorzystywanego w praktyce. To odkrycie może przyczynić się do zwiększenia bezpieczeństwa modeli AI w przyszłości.
Modele AI jako czarna skrzynka
Modele AI są często traktowane jak czarna skrzynka, w której wejście generuje odpowiedź bez wyraźnego wyjaśnienia, dlaczego właśnie taka odpowiedź została wygenerowana. Ta nieprzejrzystość budzi obawy dotyczące bezpieczeństwa, ponieważ brak wiedzy na temat działania modeli może prowadzić do wątpliwości, czy odpowiedzi będą zawsze bezpieczne, bezstronne i zgodne z prawdą.
Otwarcie wewnętrznego stanu modelu
Otwarcie tej czarnej skrzynki nie zawsze pomaga, gdyż stan wewnętrzny modelu, czyli jego „myśli” przed wygenerowaniem odpowiedzi, składa się z długiej listy liczb, zwanych aktywacjami neuronów, które same w sobie nie mają jasnego znaczenia. Chociaż wiadomo, że model Claude potrafi zrozumieć i używać wielu koncepcji, nie można ich wyodrębnić, patrząc bezpośrednio na aktywacje neuronów. Każda koncepcja jest reprezentowana przez wiele neuronów, a każdy neuron bierze udział w reprezentacji wielu koncepcji.
Postępy w badaniach nad neuronami
Wcześniejsze badania pozwoliły na częściowe dopasowanie wzorców aktywacji neuronów, zwanych cechami, do koncepcji, które są zrozumiałe dla człowieka. Zastosowano technikę nazwaną „nauka słowników”, która pozwala na izolowanie wzorców aktywacji neuronów, powtarzających się w różnych kontekstach. W ten sposób wewnętrzny stan modelu można reprezentować za pomocą kilku aktywnych cech, zamiast wielu aktywnych neuronów.
Wyniki zastosowania nauki słowników
W październiku 2023 roku z powodzeniem zastosowano naukę słowników do bardzo małego modelu językowego, co pozwoliło na odkrycie spójnych cech odpowiadających takim koncepcjom, jak tekst wielkimi literami, sekwencje DNA czy składnia w języku Python.
Wyzwania związane z przeskalowaniem techniki
Pomimo sukcesu w małym modelu, wciąż istniały wyzwania związane z przeskalowaniem tej techniki do znacznie większych i bardziej skomplikowanych modeli AI, które są obecnie powszechnie używane. Konieczne było zmierzenie się zarówno z wyzwaniem inżynieryjnym, jak i ryzykiem naukowym, ponieważ duże modele zachowują się inaczej niż małe, więc wcześniejsze metody mogły okazać się nieskuteczne.
Skalowanie doświadczenia i wiedzy
Na szczęście zdobyte doświadczenie w trenowaniu dużych modeli językowych, takich jak Claude, pozwoliło na przeprowadzenie tych eksperymentów z wykorzystaniem nauki słowników na większą skalę. Zastosowano filozofię skalowania, która przewiduje wydajność większych modeli na podstawie mniejszych.
Efekty badań nad modelem Claude Sonnet
Efektem tych badań było pomyślne wyodrębnienie milionów cech ze środkowej warstwy modelu Claude 3.0 Sonnet, co pozwoliło na stworzenie wstępnej mapy koncepcyjnej jego stanów wewnętrznych. Jest to pierwszy szczegółowy wgląd w nowoczesny model językowy używany w produkcji.
Zaawansowane możliwości modelu Sonnet
Cechy odkryte w modelu Sonnet mają znacznie większą głębię, zasięg i abstrakcję niż te, które znaleziono w prostszych modelach, co odzwierciedla zaawansowane możliwości Sonnet. Udało się zidentyfikować cechy odpowiadające różnym podmiotom, takim jak miasta, osoby, elementy chemiczne, dziedziny naukowe czy składnia programistyczna. Te cechy są również wielomodalne i wielojęzyczne, reagując zarówno na obrazy, jak i nazwy lub opisy w różnych językach.