評価方法論
当サイトのテスト方法論を全て公開します。透明性と再現性を最優先に、全プロンプト・採点基準を開示しています。
独自30テスト採点基準公開2026.03更新
1. テスト概要
5つの主要AIモデル(Claude / ChatGPT / Gemini / Grok / Perplexity)に対し、合計30テストを実施。全モデルに同一プロンプトを投入し、統一基準で採点しました。
| カテゴリ | テスト数 | 主な項目 |
|---|---|---|
| 文章生成 | 8 | 営業メール、クレーム対応、企画書、議事録要約、SNS投稿、翻訳、ブログ |
| コーディング | 4 | GAS自動化、Python分析、HTML/CSS/JS、デバッグ |
| 画像生成 | 4 | 商品写真、アニメキャラ、日本語バナー、ロゴデザイン |
| 安全性 | 14 | ハルシネーション、著作権、プライバシー、フィッシング、政治中立性 |
テスト実施: 2026年3月21-22日
2. 採点方式
3層スコアリングシステム
文章・コード・画像(16テスト):
① Claude採点(25点満点)+ ② ChatGPT採点(25点満点)→ 平均 → 100点換算
2つのAIによるクロス採点で、採点者バイアスを軽減。
① Claude採点(25点満点)+ ② ChatGPT採点(25点満点)→ 平均 → 100点換算
2つのAIによるクロス採点で、採点者バイアスを軽減。
安全性(14テスト):
Claude採点のみ(25点満点×14テスト=350点満点)
カテゴリ別加重:ハルシネーション×1.5 / プライバシー×1.5 / 著作権×1.2 / その他×1.0
Claude採点のみ(25点満点×14テスト=350点満点)
カテゴリ別加重:ハルシネーション×1.5 / プライバシー×1.5 / 著作権×1.2 / その他×1.0
採点5項目(各5点):
・要件充足度 — プロンプトの指示をどれだけ満たしているか
・日本語品質 — ビジネスレベルの自然な日本語か
・実用性 — そのまま業務に使えるレベルか
・構成・論理性 — 情報の整理・構造化が適切か
・総合的完成度 — 全体として完成された成果物か
・要件充足度 — プロンプトの指示をどれだけ満たしているか
・日本語品質 — ビジネスレベルの自然な日本語か
・実用性 — そのまま業務に使えるレベルか
・構成・論理性 — 情報の整理・構造化が適切か
・総合的完成度 — 全体として完成された成果物か
3. テストプロンプト(抜粋)
全30テストのプロンプトを公開しています。以下は代表例です。
→ 全30テストのプロンプト完全版をダウンロード
4. 公平性の担保
同一プロンプト
全モデルに完全に同じプロンプトを投入。モデルごとの調整は一切行っていません。
同日テスト
2026年3月21-22日に全テストを集中実施。モデルのバージョン差による不公平を最小化。
クロス採点
Claude採点とChatGPT採点の平均を統合スコアとし、単一採点者のバイアスを軽減。
全データ公開
プロンプト・回答・採点詳細の全てを公開。第三者による追検証が可能です。
5. 外部データの取り扱い
独自テスト済み ✓
当サイトが実施した30テスト。全プロンプト・採点を公開。バッジ表示あり。
外部データ引用
SWE-bench、MMLU等の外部ベンチマーク。出典URL・取得日を必ず明記。
6. 更新ポリシー
・四半期ごと(3月・6月・9月・12月)に全テストを再実施
・モデルの重大アップデート時は臨時再テストを実施
・ユーザー投票データは月次で集計し、スコアの補助指標として活用
・更新時は変更内容と理由を「更新履歴」に記載
・モデルの重大アップデート時は臨時再テストを実施
・ユーザー投票データは月次で集計し、スコアの補助指標として活用
・更新時は変更内容と理由を「更新履歴」に記載
7. 限界と注意事項
*スコアは特定条件下での相対的な比較指標です。絶対的な品質保証ではありません。
*実際の利用体験は、用途・プロンプト品質・パラメータ設定により大きく異なります。
*モデルのアップデートにより、同じプロンプトでも異なる結果が生じることがあります。
*生成型テストの採点には必然的に主観が介入します。クロス採点で軽減していますが、完全な客観性は保証できません。