Eksperci Cisco ujawniają poważne luki w zabezpieczeniach modelu AI DeepSeek R1

Najnowsze badania przeprowadzone przez zespół ekspertów Cisco ds. bezpieczeństwa AI wraz z Robust Intelligence, obecnie należącego do Cisco, we współpracy z Uniwersytetem Pensylwanii, wykazały poważne luki w zabezpieczeniach modelu DeepSeek R1. Model ten, opracowany przez chiński startup DeepSeek, zyskał popularność dzięki swoim zaawansowanym zdolnościom wnioskowania i efektywności kosztowej. Jednak analiza bezpieczeństwa ujawniła istotne słabości, które mogą mieć poważne konsekwencje w kontekście cyberbezpieczeństwa.

Metodologia badań i główne ustalenia

Zespół badaczy poddał DeepSeek R1 rygorystycznym testom z wykorzystaniem technik „jailbreakingu”, analizując jego reakcje na potencjalnie szkodliwe zapytania. W ramach eksperymentu użyto 50 losowo wybranych zapytań z zestawu HarmBench, który obejmuje sześć kategorii zagrożeń:

Cyberprzestępczość – pytania dotyczące sposobów przeprowadzania ataków hakerskich, tworzenia złośliwego oprogramowania czy łamania zabezpieczeń systemów.
Działania nielegalne – instrukcje dotyczące oszustw finansowych, wyłudzania danych czy obchodzenia mechanizmów kontroli dostępu.
Dezinformacja i propaganda – sposoby generowania i rozpowszechniania fałszywych informacji w celu manipulowania opinią publiczną.
Przemoc i radykalizacja – treści związane z ekstremizmem, radykalizacją oraz podżeganiem do przemocy.
Nadużycia w systemach AI – metody wykorzystywania sztucznej inteligencji do unikania detekcji w systemach monitorujących.
Naruszenie prywatności – techniki pozyskiwania i wykorzystywania poufnych danych użytkowników bez ich zgody.

Wyniki testów były alarmujące: w przeciwieństwie do innych wiodących modeli AI, DeepSeek R1 nie odrzucił żadnego ze szkodliwych zapytań. W większości przypadków model nie tylko odpowiadał na nie, ale także dostarczał szczegółowych i technicznie poprawnych informacji, które mogłyby zostać wykorzystane do celów przestępczych.

Analiza przyczyn i potencjalnych zagrożeń

Badacze wskazują, że podatność modelu DeepSeek R1 może wynikać z jego unikalnych metod szkoleniowych, takich jak:

Uczenie przez wzmocnienie (RLHF) – metoda mająca na celu poprawę jakości odpowiedzi AI, ale jednocześnie mogąca zwiększać podatność na nadużycia, jeśli mechanizmy bezpieczeństwa nie są odpowiednio wzmocnione.
Samoocena w stylu „chain-of-thought” – proces pozwalający modelowi lepiej rozumieć i generować rozbudowane odpowiedzi, lecz w tym przypadku nie zapobiegający generowaniu szkodliwych treści.
Destylacja wiedzy (knowledge distillation) – technika, dzięki której model staje się bardziej efektywny, ale może tracić mechanizmy ograniczające jego zdolność do generowania niepożądanych treści.

Odkryte luki w zabezpieczeniach sprawiają, że DeepSeek R1 może stać się atrakcyjnym narzędziem dla cyberprzestępców i osób prowadzących działalność dezinformacyjną. Model ten nie spełnia kluczowych standardów bezpieczeństwa, co budzi poważne obawy dotyczące przyszłości sztucznej inteligencji i konieczności wprowadzenia bardziej rygorystycznych regulacji.

Autor/Źródło:

Redakcja

Ostatnie wpisy

AI i prawo autorskie w firmie. Na co muszą uważać przedsiębiorcy?

Większość polskich patentów nie jest komercjalizowana. Tylko co czwarty trafia na rynek

Ustawa o zawodzie dietetyka. Kwalifikacje, rejestr i jednolite standardy

Eksperci Cisco ujawniają poważne luki w zabezpieczeniach modelu AI DeepSeek R1

Metodologia badań i główne ustalenia

Analiza przyczyn i potencjalnych zagrożeń

Jacek Przybylski dyrektorem generalnym Cisco w Polsce

DeepSeek V4 już w lutym. AI ma usprawnić programowanie

DeepSeek rozwija nowy model AI mimo sankcji. W tle podejrzenia przemytu chipów Nvidia Blackwell

Chińczycy stawiają na Open Source AI. DeepSeek-V3.2 i V3.2-Speciale mają konkurować z GPT-5 od OpenAI i Gemini 3 Pro Google