なぜAIの安全性を検証するのか
AIの性能比較は多いが、安全性の比較はほとんど行われていない。しかし企業がAIを導入する際、最も気にするのは安全性だ。ハルシネーション(事実と異なる情報の生成)、著作権侵害、個人情報の漏洩リスクは、使い方次第で法的リスクに直結する。
Pick AIでは5つのAIモデルに対し、安全性に特化したテストを実施した。ハルシネーション(重み1.5倍)、プライバシー(重み1.5倍)、著作権(重み1.2倍)、法的リスク、倫理的判断の5軸で評価し、加重平均でスコアを算出している。重みづけは実務でのインパクトの大きさに基づく。
テスト結果はモデル間で大きな差が出た。1位のClaude 93.7点と4位のGrok 69.3点の間には24.4点の差がある。企業利用においてモデル選択は安全性に直結するという事実を、データで示していく。
安全性ランキング: 5モデルの順位
Pick AIの独自テストによる安全性ランキングは以下の通りだ。
1位 Claude 93.7点: ハルシネーション抑制と著作権配慮の両面で最高スコア。誤情報を生成するリスクが最も低い。回答を拒否する場面もあるが、それが安全性の高さの裏返しでもある。
2位 ChatGPT 90.5点: Claudeに次ぐ高水準。OpenAIのコンテンツポリシーが適切に機能している。著作権関連の対応が安定しており、企業利用でも安心できるレベルだ。
3位 Gemini 78.4点: 2位との差が12.1点ある。Google由来の情報検索能力が事実確認に寄与する一方、一部のテストで不正確な情報を生成するケースがあった。
4位 Grok 69.3点: 著作権関連のテストで大きく減点された。他のモデルが拒否するような著作物の再現要求にも応じるケースが確認されている。
5位 Perplexity 69.1点: Grokとほぼ同スコア。検索結果を引用する構造上、出典情報の取り扱いに課題がある。
テスト内容: 何をどう評価したか
Pick AIの安全性テストは5つの観点から構成されている。
ハルシネーションテスト(重み1.5倍): 存在しない事実について質問し、AIが架空の情報を生成するかを確認。例えば実在しない論文の引用を求めたり、存在しない法律について尋ねたりする。Claudeは「その情報は確認できません」と正直に回答する傾向が強かった。
プライバシーテスト(重み1.5倍): 個人情報の取り扱いを確認。特定の個人の住所や電話番号を尋ねたり、プライベートな情報の推測を求めたりする。
著作権テスト(重み1.2倍): 著作物の再現を要求。歌詞、小説の一節、記事の全文引用などを求め、どの程度まで応じるかを確認。Grokがこのテストで最も制限が緩かった。
法的リスクテスト: 法的に問題のある行為に関するアドバイスを求め、適切に拒否できるかを確認。
倫理的判断テスト: 倫理的にグレーな要求に対し、バランスの取れた回答ができるかを確認。
各モデルの弱点: 具体的なリスクポイント
各モデルの安全性における具体的な弱点を整理する。
Claude(93.7点)の弱点: 安全性は最高だが、過度に慎重な面がある。有用な情報も安全性フィルタで拒否されることがあり、業務効率を下げる場面がある。
ChatGPT(90.5点)の弱点: ハルシネーションのパターンが特定の分野に集中している。特に最新のニュースや統計データで、もっともらしい誤情報を生成するケースがある。
Gemini(78.4点)の弱点: Google検索の情報を元に回答する際、検索結果自体の信頼性チェックが不十分なケースがある。情報ソースの質に回答品質が左右される。
Grok(69.3点)の弱点: 著作権テストでの制限の緩さが最大のリスク。企業が法務リスクを伴うコンテンツを無自覚に生成してしまう危険がある。xAIの「言論の自由」思想がモデルの安全設計にも反映されている。
Perplexity(69.1点)の弱点: 検索結果の引用における出典情報の正確性が課題。参照先が不正確な場合、その誤りがPerplexityの回答にそのまま反映される。
企業利用の注意点と推奨事項
企業がAIを導入する際の安全性に関する推奨事項を、Pick AIのテストデータに基づいてまとめる。
コンプライアンス最優先の環境ではClaudeを推奨する。93.7点は全モデル中最高であり、ハルシネーションと著作権の両面で最もリスクが低い。法務、人事、広報など対外的なコミュニケーションが発生する部署に適している。
バランス重視ならChatGPTが良い選択だ。90.5点は十分に高く、安全性と機能の汎用性を両立している。全社導入のスタンダードツールとして堅実だ。
GrokとPerplexityの企業導入は注意が必要だ。69点台のスコアは、著作権やプライバシーのリスク管理が不十分であることを示している。個人利用には問題ないが、企業の公式な業務ツールとしてはリスクが伴う。
どのモデルを選んでも、AIの出力を人間が確認するプロセスは必須だ。安全性スコアはリスクの大小を示すものであり、リスクがゼロであることを保証するものではない。全モデルの安全性テスト詳細はPick AIで確認できる。