- AI研究者のSander Schulhoffが、現在デプロイされているほぼすべてのAIシステムがプロンプトインジェクション攻撃とジェイルブレイクに脆弱であり、ガードレールは根本的に機能していないことを明かす。
- この問題はAGIの遠い話ではなく、今日のものであり、大規模な被害がまだ起きていない理由は、AIが十分な権限を与えられていない、そして採用が十分に広がっていないからに過ぎない。
- エージェントやロボットが権限を持つようになる時代の到来に備えて、組織は従来のセキュリティとは異なるAIセキュリティ専門知識を持つチームを構築し、デプロイ前の徹底的な検証を重視する必要がある。
論点をもう少し詳しく読む
AIガードレールが機能しない根本的な理由
Schulhoffは、ガードレール業界が「すべてを検出している」と主張する一方で、十分に決意した攻撃者はそれを回避できると指摘する。彼は鍵となる違いを強調する:ソフトウェアのバグは修正できるが、AIの「脳」は修正できない、ということだ。従来のセキュリティでは99.99%のバグ修正が可能だが、AIシステムではその問題がなお存在する確率が99.99%である。プロンプトベースの防御も同様に無効であり、2023年初頭から研究で知られている事実だ。つまり、現在のすべてのトランスフォーマーベースシステムに対して自動赤チーム化は常に機能し、ガードレールは常に失敗する。
被害が今のところ大規模に起きていない理由とそれが変わる時期
業界がまだ大規模な攻撃を見ていない理由は、セキュリティの堅牢さではなく、採用が初期段階にあり、AIシステムに十分な権限が付与されていないからだ。Alex Komoroskeもこの見方を支持している。しかし状況は急速に変わりつつある。エージェントの展開、ロボットの実装、AIを使用したブラウザが登場すれば、リスクは急速に増加する。これらのシステムは実際に企業や個人に財務的被害をもたらし、やがては身体的危害につながる可能性がある。つまり、今は防御手段の限界が問題にならないほどの威力しかないが、権限が増すにつれてこれは深刻な脅威になる。
AIセキュリティは古典的セキュリティとは本質的に異なる
Schulhoffは、AIセキュリティの専門知識は古典的なセキュリティ専門家とは異なる人材が必要であると強調する。「バグはパッチできるが、脳はパッチできない」というフレーズが示すように、AIシステムの防御には深い理解が必要だ。理想的には、AI研究者とクラシックセキュリティ専門家の両方の視点を持つ人物が、システム全体の状況を理解する必要がある。教育がこのプロセスの重要な部分であり、組織は単にツールを導入するのではなく、チーム内にこの複雑な領域を真に理解できる人間を配置する必要がある。
実際の防御戦略と導入リスク評価のフレームワーク
Schulhoffは、すべてのユースケースに対して防御が必要なわけではないと指摘する。FAQに答えるだけのチャットボットの場合、ユーザーは同じ結果をChatGPTやClaudeで得られるため、ガードレール投資は意味をなさない。しかし権限のあるシステムでは異なる。彼は重要な推奨事項を提示する:デプロイ前に、「このシステムはプロンプトインジェクション可能か」を問い、CaMeLのような防御手段の検討を勧める。だが最も重要なのは、「それでもシステムをデプロイしないという選択肢」を含めた思考だ。つまり、技術的防御の限界を認識した上で、リスクが許容できるか根本的に評価する必要がある。