AIシステムの脱獄技術「Best-of-N Jailbreaking」開発される
AIシステムに対する新たな攻撃手法として、「Best-of-N(BoN)Jailbreaking(ジェイルブレイキング)」が注目を集めている。この技術は、大文字と小文字の混在、文字のランダムな並べ替え、意図的なスペルミスなどを組み合わせてプロンプトを改変し、AIモデルから意図的に有害な応答を引き出すものだ。
Anthropic社をはじめとする研究チームが開発したこの手法は、クローズドソースのAIモデルやオープンソースの防御システムに対しても高い攻撃成功率を示している。例えば、OpenAIのGPT-4oでは10,000回の試行で89%の成功率を記録している。また、GoogleのGemini 1.5 ProやMetaのLlama 3 8Bといった他社製AIモデルに対しても有効であり、50%以上の成功率を複数のシステムで確認したという。これらの結果は、AIがプロンプトに対するわずかな変化に過敏であることを示している。
BoN Jailbreakingは、テキストプロンプトだけでなく、画像や音声といった他のモダリティにも適用可能である。画像プロンプトではフォントや背景色の組み合わせを多数試行することで、音声プロンプトではピッチやノイズを調整することで、AIモデルの制限を突破することに成功した。さらに、この手法はサンプル数が増えるほど成功率が向上する傾向があり、経験的にはべき乗則のような挙動を示す。
AIの悪用を防ぐための脆弱性公開
BoN Jailbreakingは、他の脱獄手法との組み合わせによってさらなる威力を発揮する。特に、Anthropicが過去に発表した「メニーショット・ジェイルブレイキング」との併用が有効だ。この手法では、人間とAIの仮想的な対話形式をプロンプト内に複数含めることで、AIの防御を回避する仕組みを採用している。両者を組み合わせることで、攻撃成功までの試行回数を大幅に削減することが可能となった。
研究チームは、この攻撃手法を悪用することでAIモデルが社会に与える潜在的なリスクを警告している。特に、BoN Jailbreakingはブラックボックス方式であるため、内部構造を詳しく知らなくても適用可能である点が問題視されている。この技術が悪用された場合、AIシステムを利用した危険な情報提供や意図的な誤情報の拡散が現実の脅威となる可能性がある。
研究チームは、この技術の詳細をGitHubで公開している。その背景には、セキュリティ研究者がBoN Jailbreakingを基に防御策を設計し、将来的な悪用を未然に防ぐことを期待する意図がある。AIの安全性を確保するためには、こうした脆弱性を直視し、適切な対応策を講じることが不可欠である。
【関連リンク】
・ランダムな文字列で質問し続けるとAIから有害な回答を引き出せるという攻撃手法「Best-of-N Jailbreaking」が開発される、GPT-4oを89%の確率で突破可能(Gigazine)
https://gigazine.net/news/20241223-ai-best-of-n-jailbreaking/
関連記事
TEXT:PreBell編集部
PHOTO:iStock
この記事を気にいったらいいね!しよう
PreBellの最新の話題をお届けします。