Naukowcy odkryli jailbreak dla GPT-5. Poważne zagrożenie

Odkrycie jailbreaku GPT-5 i ataków zero-click na agentów AI to ostrzeżenie, że „inteligentne” systemy, połączone z chmurą i IoT, mają dziś realne luki – i to nie w egzotycznych laboratoriach, lecz w standardowych, wieloetapowych rozmowach z modelem i w codziennych integracjach biurowych.

Zespół NeuralTrust pokazał, że połączenie techniki Echo Chamber – zatruwania kontekstu rozmowy – z narracyjnym „sterowaniem fabułą” pozwala obejść część zabezpieczeń GPT-5. Zamiast prosić wprost o zakazane instrukcje, atakujący buduje pętlę perswazji. I tak podrzuca słowa-klucze, zmusza model do tworzenia niewinnych zdań, a następnie konsekwentnie rozszerza wątki, unikając wyzwalaczy odmowy.

Taka kontynuacja historii maskuje prawdziwy cel i wzmacnia skażony kontekst przy każdym kolejnym kroku. NeuralTrust opisuje też, jak wcześniejsze Echo Chamber łączono z wieloturowym Crescendo przeciwko innym modelom – i jak podobny schemat daje się adaptować do GPT-5.

Ataki zero-click na AI

Równolegle rośnie wektor zero-click dla agentów AI podłączonych do usług chmurowych. Badacze wykazali, że wystarczy „zatruty” dokument w Google Drive, by wywołać po stronie łącznika ChatGPT łańcuch poleceń, który bez udziału użytkownika wyciąga z chmury tajne dane (np. klucze API) i wysyła je na zewnętrzny serwer.

Atak nazwany AgentFlayer wykorzystuje pośrednie wstrzyknięcia promptów ukryte w treści pliku oraz zachowanie renderowania obrazów/URL, by ominąć filtry i zasady. Mechanizm jest zdradliwy, bo działa w normalnym, biurowym przepływie pracy, a jego skuteczność skaluje się wraz z liczbą integracji – od dysków firmowych, przez pocztę, po repozytoria kodu.

Konsekwencje dla przedsiębiorstw są dwojakie. Po pierwsze, filtry oparte na słowach-kluczach i deklaratywnej „intencji” nie wystarczają w scenariuszach wieloturowych, gdzie kontekst da się zatruwać stopniowo, a model broni się jedynie przed wprost nazwanymi celami.

Po drugie, każda integracja agenta z systemami zewnętrznymi – od kalendarza po repozytorium – drastycznie poszerza powierzchnię ataku i tworzy ciche, bezklikowe ścieżki eksfiltracji. W praktyce oznacza to konieczność twardszych polityk I/O dla agentów (whitelisting źródeł, izolacja środowisk wykonawczych, „zasada najmniejszych uprawnień”), stałego red teamingu promptów i łańcuchów narzędzi, a także obrony kontekstowej:

Skanowania i czyszczenia wejść/wyjść pod kątem wstrzyknięć
Wymuszania potwierdzeń przy operacjach ryzykownych
Telemetrycznego śledzenia „fabularnych” eskalacji w dialogu z modelem

Najważniejsza lekcja jest prosta. Modele stają się coraz lepsze w rozumowaniu, ale bezpieczeństwo i zgodność trzeba projektować, nie zakładać. W dobie agentów AI nie wystarczy dodać warstwę filtrów – trzeba kontrolować narrację i łańcuchy narzędzi. A także konteksty, w których modele działają, zanim kolejny „niewinny” dokument, ticket czy zaproszenie kalendarzowe znów zrobi coś, o co nikt w firmie nie prosił.

Czytaj też:

Nie przegap:

Naukowcy odkryli jailbreak dla GPT-5. Poważne zagrożenie

Ataki zero-click na AI

Powiązane Artykuły