Trenujesz AI, by była mądrzejsza, szybsza i bardziej pomocna. Tymczasem ona po cichu zapamiętuje rzeczy, których nie powinna. Nowe badania Anthropic rzucają światło na tzw. uczenie podprogowe modeli LLM.
Modele takie jak Claude czy GPT nie są czystymi kartkami, nawet jeśli badacze je precyzyjnie trenują. Naukowcy z Anthropic wykazali, że nawet drobne informacje przekazywane podczas etapu dostrajania (fine-tuningu) trafiają do pamięci modelu i wpływają na jego zachowanie. Badacze nazwali tę ukrytą formę nabywania wiedzy „uczeniem podprogowym” (subliminal learning).
To zjawisko może prowadzić do poważnych konsekwencji: od przecieków poufnych danych po sabotowanie procesu szkoleniowego. Eksperymenty pokazują, że model przechowuje informacje, których oficjalnie nie uwzględnia się w danych wyjściowych. Co gorsza – niektóre z tych informacji mogą aktywować się niespodziewanie.
Mimowolne przyswajanie danych
Zespół Anthropic wykazał, że modele LLM zapamiętują wzorce, nawet gdy nie są oznaczone jako istotne. W eksperymencie badacze wprowadzili nazwiska, hasła i zakodowane informacje, a następnie poprosili model o wykonanie niezwiązanych z tym zadań. Wyniki zaniepokoiły naukowców: modele przywoływały zapamiętane frazy, mimo braku kontekstu.
To zjawisko nie wynika z błędu algorytmu, lecz z jego niezamierzonej cechy. Model uczy się danych, nawet jeśli nie uzyskuje do nich jawnego dostępu. Wystarczy, że umieszczono je w promptach lub przypadkowych adnotacjach.
Konsekwencje bezpieczeństwa i prywatności
Uczenie podprogowe otwiera drogę do poważnych naruszeń prywatności. Jeżeli model zapamiętuje dane uwierzytelniające lub inne poufne informacje, może potem nieświadomie ujawnić je w odpowiedziach na pytania. Sam fakt, że dane trafiają do systemu, staje się potencjalnie niebezpieczny.
Anthropic ostrzega, że atakujący mogą wykorzystać to zjawisko w tzw. atakach typu data poisoning, czyli celowym wprowadzaniu do modelu szkodliwych informacji. Takie działanie może prowadzić do nieprzewidywalnych reakcji modelu, a nawet manipulacji decyzjami AI.
Badacze przetestowali różne metody zabezpieczeń, m.in. modyfikację architektury i ograniczenia w danych wejściowych. Jednak żadna z nich nie zlikwidowała zjawiska całkowicie. Subliminal learning działa jak luka systemowa, trudna do usunięcia, ponieważ wynika z samego sposobu uczenia modeli.
Jednym ze sposobów na ograniczenie ryzyka może być pełna kontrola środowiska treningowego i zastosowanie bardziej rygorystycznych metod walidacji. Mimo to, przed nami długa droga do naprawdę bezpiecznych LLMów.
Ograniczenie zaufania do modeli to podstawa
Odkrycie Anthropic skłania inżynierów AI i decydentów do przemyślenia poziomu zaufania do systemów LLM. Jeśli nawet pozornie nieistotne dane potrafią wpłynąć na działanie modelu, to czy możemy mówić o jego przewidywalności? Transparentność, audytowalność i nowe metody walidacji stanowią dziś fundament odpowiedzialnego wdrażania AI.
Materiał powstał we współpracy z AI:
