Newsy

Anthropic odkrywa złe nawyki modeli AI

31/07/2025

Uczenie podprogowe modeli AI. Czego nie widzę, to się uczę? Anthropic odkrył, że sztuczna inteligencja uczy się nie tego, co powinna

Trenujesz AI, by była mądrzejsza, szybsza i bardziej pomocna. Tymczasem ona po cichu zapamiętuje rzeczy, których nie powinna. Nowe badania Anthropic rzucają światło na tzw. uczenie podprogowe modeli LLM.

Modele takie jak Claude czy GPT nie są czystymi kartkami, nawet jeśli badacze je precyzyjnie trenują. Naukowcy z Anthropic wykazali, że nawet drobne informacje przekazywane podczas etapu dostrajania (fine-tuningu) trafiają do pamięci modelu i wpływają na jego zachowanie. Badacze nazwali tę ukrytą formę nabywania wiedzy „uczeniem podprogowym” (subliminal learning).

To zjawisko może prowadzić do poważnych konsekwencji: od przecieków poufnych danych po sabotowanie procesu szkoleniowego. Eksperymenty pokazują, że model przechowuje informacje, których oficjalnie nie uwzględnia się w danych wyjściowych. Co gorsza – niektóre z tych informacji mogą aktywować się niespodziewanie.

Mimowolne przyswajanie danych

Zespół Anthropic wykazał, że modele LLM zapamiętują wzorce, nawet gdy nie są oznaczone jako istotne. W eksperymencie badacze wprowadzili nazwiska, hasła i zakodowane informacje, a następnie poprosili model o wykonanie niezwiązanych z tym zadań. Wyniki zaniepokoiły naukowców: modele przywoływały zapamiętane frazy, mimo braku kontekstu.

To zjawisko nie wynika z błędu algorytmu, lecz z jego niezamierzonej cechy. Model uczy się danych, nawet jeśli nie uzyskuje do nich jawnego dostępu. Wystarczy, że umieszczono je w promptach lub przypadkowych adnotacjach.

Konsekwencje bezpieczeństwa i prywatności

Uczenie podprogowe otwiera drogę do poważnych naruszeń prywatności. Jeżeli model zapamiętuje dane uwierzytelniające lub inne poufne informacje, może potem nieświadomie ujawnić je w odpowiedziach na pytania. Sam fakt, że dane trafiają do systemu, staje się potencjalnie niebezpieczny.

Anthropic ostrzega, że atakujący mogą wykorzystać to zjawisko w tzw. atakach typu data poisoning, czyli celowym wprowadzaniu do modelu szkodliwych informacji. Takie działanie może prowadzić do nieprzewidywalnych reakcji modelu, a nawet manipulacji decyzjami AI.

Badacze przetestowali różne metody zabezpieczeń, m.in. modyfikację architektury i ograniczenia w danych wejściowych. Jednak żadna z nich nie zlikwidowała zjawiska całkowicie. Subliminal learning działa jak luka systemowa, trudna do usunięcia, ponieważ wynika z samego sposobu uczenia modeli.

Jednym ze sposobów na ograniczenie ryzyka może być pełna kontrola środowiska treningowego i zastosowanie bardziej rygorystycznych metod walidacji. Mimo to, przed nami długa droga do naprawdę bezpiecznych LLMów.

Ograniczenie zaufania do modeli to podstawa

Odkrycie Anthropic skłania inżynierów AI i decydentów do przemyślenia poziomu zaufania do systemów LLM. Jeśli nawet pozornie nieistotne dane potrafią wpłynąć na działanie modelu, to czy możemy mówić o jego przewidywalności? Transparentność, audytowalność i nowe metody walidacji stanowią dziś fundament odpowiedzialnego wdrażania AI.

Materiał powstał we współpracy z AI:

Claude

Freepik

{{post_title}}

Anthropic odkrywa złe nawyki modeli AI

Mimowolne przyswajanie danych

Konsekwencje bezpieczeństwa i prywatności

Ograniczenie zaufania do modeli to podstawa

Pusto w komentarzach, może zaczniesz?

KOMENTARZE DO ARTYKUŁU:

Loading…

Here are the results for the search: "{{td_search_query}}"

No results!

{{post_title}}

Mimowolne przyswajanie danych

Konsekwencje bezpieczeństwa i prywatności

Ograniczenie zaufania do modeli to podstawa

RELATED ARTICLES

Wyciek Samsunga niczego nie nauczył. Rządowe kontrakty w publicznym ChatGPT

Nowe narzędzie AI, stara luka bezpieczeństwa. Co na to Anthropic?

Google Gemini zmienia limity zapytań. Jest lepiej

Pusto w komentarzach, może zaczniesz?

KOMENTARZE DO ARTYKUŁU: Cancel reply

KOMENTARZE DO ARTYKUŁU: