Home Newsy Anthropic odkrywa złe nawyki modeli AI

Anthropic odkrywa złe nawyki modeli AI

Uczenie podprogowe modeli AI. Czego nie widzę, to się uczę? Anthropic odkrył, że sztuczna inteligencja uczy się nie tego, co powinna

Modele takie jak Claude czy GPT nie są czystymi kartkami, nawet jeśli badacze je precyzyjnie trenują. Naukowcy z Anthropic wykazali, że nawet drobne informacje przekazywane podczas etapu dostrajania (fine-tuningu) trafiają do pamięci modelu i wpływają na jego zachowanie. Badacze nazwali tę ukrytą formę nabywania wiedzy „uczeniem podprogowym” (subliminal learning).

To zjawisko może prowadzić do poważnych konsekwencji: od przecieków poufnych danych po sabotowanie procesu szkoleniowego. Eksperymenty pokazują, że model przechowuje informacje, których oficjalnie nie uwzględnia się w danych wyjściowych. Co gorsza – niektóre z tych informacji mogą aktywować się niespodziewanie.

Zespół Anthropic wykazał, że modele LLM zapamiętują wzorce, nawet gdy nie są oznaczone jako istotne. W eksperymencie badacze wprowadzili nazwiska, hasła i zakodowane informacje, a następnie poprosili model o wykonanie niezwiązanych z tym zadań. Wyniki zaniepokoiły naukowców: modele przywoływały zapamiętane frazy, mimo braku kontekstu.

To zjawisko nie wynika z błędu algorytmu, lecz z jego niezamierzonej cechy. Model uczy się danych, nawet jeśli nie uzyskuje do nich jawnego dostępu. Wystarczy, że umieszczono je w promptach lub przypadkowych adnotacjach.

Uczenie podprogowe otwiera drogę do poważnych naruszeń prywatności. Jeżeli model zapamiętuje dane uwierzytelniające lub inne poufne informacje, może potem nieświadomie ujawnić je w odpowiedziach na pytania. Sam fakt, że dane trafiają do systemu, staje się potencjalnie niebezpieczny.

Anthropic ostrzega, że atakujący mogą wykorzystać to zjawisko w tzw. atakach typu data poisoning, czyli celowym wprowadzaniu do modelu szkodliwych informacji. Takie działanie może prowadzić do nieprzewidywalnych reakcji modelu, a nawet manipulacji decyzjami AI.

Badacze przetestowali różne metody zabezpieczeń, m.in. modyfikację architektury i ograniczenia w danych wejściowych. Jednak żadna z nich nie zlikwidowała zjawiska całkowicie. Subliminal learning działa jak luka systemowa, trudna do usunięcia, ponieważ wynika z samego sposobu uczenia modeli.

Jednym ze sposobów na ograniczenie ryzyka może być pełna kontrola środowiska treningowego i zastosowanie bardziej rygorystycznych metod walidacji. Mimo to, przed nami długa droga do naprawdę bezpiecznych LLMów.

Odkrycie Anthropic skłania inżynierów AI i decydentów do przemyślenia poziomu zaufania do systemów LLM. Jeśli nawet pozornie nieistotne dane potrafią wpłynąć na działanie modelu, to czy możemy mówić o jego przewidywalności? Transparentność, audytowalność i nowe metody walidacji stanowią dziś fundament odpowiedzialnego wdrażania AI.

Materiał powstał we współpracy z AI:

Pusto w komentarzach, może zaczniesz?

KOMENTARZE DO ARTYKUŁU:

Please enter your comment!
Please enter your name here

Exit mobile version