Naukowcy uniwersytetów Stanford i Berkeley zbadali sposób ewolucji modelu językowego GPT. W swojej pracy przeanalizowali jak GPT-3.5 i GPT-4 (najczęściej używane usługi dużych modeli językowych LLM) radziły sobie z zadaniami związanymi z:
- rozwiązywaniem problemów matematycznych
- odpowiadaniem na wrażliwe/niebezpieczne pytania
- generowaniem kodu
- rozumowaniem wizualnym
Porównując wyniki dostarczane przez wersje GPT-3.5 i GPT-4 z marca 2023 r. i czerwca 2023 r. w czterech różnych zadaniach doszli do wniosku że GPT-4 był mniej chętny do udzielania odpowiedzi na wrażliwe pytania w czerwcu niż w marcu. Usługa GPT-3.5 natomiast udzielała takich odpowiedzi statystycznie częściej niż w marcu.
Badanie pokazuje, że LLM ewoluuje co oczywiście nie jest zaskoczeniem.
Jak ChatGPT reaguje na “szkodliwe” pytania?
OpenAI wydało GPT-4 w marcu tego roku i do tej pory rozwiązanie jest dostępne dla każdego, kto płacił za subskrypcję ChatGPT Plus lub za pośrednictwem interfejsu API firmy. OpenAI jest coraz bardziej zamkniętą firmą i nie podzieliła się prawie niczym na temat sposobu, w jaki aktualizuje, dostraja lub planuje przekwalifikować swoje modele w oparciu o nowe dane, a także miliony pytań, które użytkownicy wprowadzają do systemu.
Badanie wykazało, że GPT-4 wykorzystuje wspomniane wcześniej informacje, ponieważ stał się znacznie lepszy w zwalczaniu ataków jailbreak typu prompt injection od czasu jego pierwotnego wydania.
Czym są ataki jailbreak w przypadku chatbotów?
Proces jailbreakingu ma na celu zaprojektowanie pytań, które sprawiają, że chatboty omijają zasady dotyczące tworzenia nienawistnych treści lub pisania o nielegalnych działaniach. Ściśle powiązane z jailbreakingiem są ataki typu prompt injection, które mogą po cichu wstawiać złośliwe dane lub instrukcje do modeli sztucznej inteligencji. Ataki prompt injection mogą być szczególnie niebezpieczne w przypadku modeli AI, które są używane do podejmowania ważnych decyzji, jak na przykład w medycynie, bezpieczeństwie czy finansach. Przeprowadzenie ataku prompt injection[1] może prowadzić do dezinformacji, zafałszowanych wyników lub manipulacji działania systemu AI.
Aby zapobiegać takim atakom, twórcy i użytkownicy systemów AI muszą być świadomi potencjalnych luk w mechanizmach obsługi promptów i wprowadzać odpowiednie zabezpieczenia, takie jak sprawdzanie i filtrowanie wejściowych danych. Również dostawcy technologii AI starają się ciągle udoskonalać swoje modele, aby minimalizować ryzyko ataków prompt injection poprzez bardziej precyzyjne rozumienie intencji użytkowników i odpowiednie ograniczanie możliwości manipulacji promptami.
Zarówno jailbreak jak i prompt injection próbują skłonić system do zrobienia czegoś, do czego nie został zaprojektowany. Ataki te są zasadniczo formą hakowania, z wykorzystaniem starannie spreparowanych i dopracowanych zdań, a nie kodu, w celu wykorzystania słabości systemu. Atak typu jailbreak ma na celu ominięcie filtrów treści.
Jednym z bardziej znanych ataków jailbreak był tak zwany DAN, w którym ChatGPT miał udawać, że jest nieuczciwym modelem sztucznej inteligencji o nazwie Do Anything Now. Jak sama nazwa wskazuje, miał on na celu ominąć zasady OpenAI, zgodnie z którymi ChatGPT nie powinien być wykorzystywany do tworzenia nielegalnych lub szkodliwych materiałów.
Wiele z najnowszych jailbreaków obejmuje kombinacje metod używających bardziej złożonych historii, tłumaczenia tekstu z jednego języka na inny, wykorzystywania elementów kodowania do generowania danych wyjściowych i innych.
Przykładowa technika przedstawiona jest na poniższym obrazku:
Mniej wyrafinowana metoda obiegła internet na początku 2023 roku.
Obrona przed atakami Jailbreak
Twórcy systemów generatywnej sztucznej inteligencji są świadomi zagrożeń, jakie mogą stwarzać jailbreaki, większość firm korzysta z red-teamingu, w którym grupa atakujących próbuje załatać dziury w systemie poprzez znajdywanie ich zanim zrobią to osoby o złych zamiarach[2]. Niestety pomysłowość użytkowników oraz szybki rozwój generatywnej sztucznej inteligencji sprawia, że jest to bardzo trudne zadanie.
[1] https://www.cobalt.io/blog/prompt-injection-attacks
[2] https://www.wired.com/story/chatgpt-jailbreak-generative-ai-hacking/