ChatGPT-4 lepiej blokuje szkodliwe zapytania

Naukowcy uniwersytetów Stanford i Berkeley zbadali sposób ewolucji modelu językowego GPT. W swojej pracy przeanalizowali jak GPT-3.5 i GPT-4 (najczęściej używane usługi dużych modeli językowych LLM) radziły sobie z zadaniami związanymi z:

  • rozwiązywaniem problemów matematycznych
  • odpowiadaniem na wrażliwe/niebezpieczne pytania
  • generowaniem kodu
  • rozumowaniem wizualnym

Porównując wyniki dostarczane przez wersje GPT-3.5 i GPT-4 z marca 2023 r. i czerwca 2023 r. w czterech różnych zadaniach doszli do wniosku że GPT-4 był mniej chętny do udzielania odpowiedzi na wrażliwe pytania w czerwcu niż w marcu. Usługa GPT-3.5 natomiast udzielała takich odpowiedzi statystycznie częściej niż w marcu.

https://arxiv.org/pdf/2307.09009.pdf

Badanie pokazuje, że LLM ewoluuje co oczywiście nie jest zaskoczeniem.


Wyniki badań: https://arxiv.org/pdf/2307.09009.pdf

Jak ChatGPT reaguje na “szkodliwe” pytania?

OpenAI wydało GPT-4 w marcu tego roku i do tej pory rozwiązanie jest dostępne dla każdego, kto płacił za subskrypcję ChatGPT Plus lub za pośrednictwem interfejsu API firmy. OpenAI jest coraz bardziej zamkniętą firmą i nie podzieliła się prawie niczym na temat sposobu, w jaki aktualizuje, dostraja lub planuje przekwalifikować swoje modele w oparciu o nowe dane, a także miliony pytań, które użytkownicy wprowadzają do systemu.

Badanie wykazało, że GPT-4 wykorzystuje wspomniane wcześniej informacje, ponieważ stał się znacznie lepszy w zwalczaniu ataków jailbreak typu prompt injection od czasu jego pierwotnego wydania.

Czym są ataki jailbreak w przypadku chatbotów?

Proces jailbreakingu ma na celu zaprojektowanie pytań, które sprawiają, że chatboty omijają zasady dotyczące tworzenia nienawistnych treści lub pisania o nielegalnych działaniach. Ściśle powiązane z jailbreakingiem są ataki typu prompt injection, które mogą po cichu wstawiać złośliwe dane lub instrukcje do modeli sztucznej inteligencji. Ataki prompt injection mogą być szczególnie niebezpieczne w przypadku modeli AI, które są używane do podejmowania ważnych decyzji, jak na przykład w medycynie, bezpieczeństwie czy finansach. Przeprowadzenie ataku prompt injection[1] może prowadzić do dezinformacji, zafałszowanych wyników lub manipulacji działania systemu AI.

Zobacz:  Wojsko Polskie inwestuje w cyberbezpieczeństwo i nowoczesny sprzęt

Aby zapobiegać takim atakom, twórcy i użytkownicy systemów AI muszą być świadomi potencjalnych luk w mechanizmach obsługi promptów i wprowadzać odpowiednie zabezpieczenia, takie jak sprawdzanie i filtrowanie wejściowych danych. Również dostawcy technologii AI starają się ciągle udoskonalać swoje modele, aby minimalizować ryzyko ataków prompt injection poprzez bardziej precyzyjne rozumienie intencji użytkowników i odpowiednie ograniczanie możliwości manipulacji promptami.

Zarówno jailbreak jak i prompt injection próbują skłonić system do zrobienia czegoś, do czego nie został zaprojektowany. Ataki te są zasadniczo formą hakowania, z wykorzystaniem starannie spreparowanych i dopracowanych zdań, a nie kodu, w celu wykorzystania słabości systemu. Atak typu jailbreak ma na celu ominięcie filtrów treści.

Jednym z bardziej znanych ataków jailbreak był tak zwany DAN, w którym ChatGPT miał udawać, że jest nieuczciwym modelem sztucznej inteligencji o nazwie Do Anything Now. Jak sama nazwa wskazuje, miał on na celu ominąć zasady OpenAI, zgodnie z którymi ChatGPT nie powinien być wykorzystywany do tworzenia nielegalnych lub szkodliwych materiałów.

Wiele z najnowszych jailbreaków obejmuje kombinacje metod używających bardziej złożonych historii, tłumaczenia tekstu z jednego języka na inny, wykorzystywania elementów kodowania do generowania danych wyjściowych i innych.

Przykładowa technika przedstawiona jest na poniższym obrazku:

Przykład Jailbreak dla ChatGPT

Mniej wyrafinowana metoda obiegła internet na początku 2023 roku.

źródło: twitter

Obrona przed atakami Jailbreak

Twórcy systemów generatywnej sztucznej inteligencji są świadomi zagrożeń, jakie mogą stwarzać jailbreaki, większość firm korzysta z red-teamingu, w którym grupa atakujących próbuje załatać dziury w systemie poprzez znajdywanie ich zanim zrobią to osoby o złych zamiarach[2]. Niestety pomysłowość użytkowników oraz szybki rozwój generatywnej sztucznej inteligencji sprawia, że jest to bardzo trudne zadanie.

[1] https://www.cobalt.io/blog/prompt-injection-attacks

[2] https://www.wired.com/story/chatgpt-jailbreak-generative-ai-hacking/

5/5 - (Głosów: 2)

Inne wpisy

Odwiedź nasze media społecznościowe

13,653FaniLubię
243ObserwującyObserwuj
268SubskrybującySubskrybuj

Ostatnie artykuły

× Chat