評価方法論

当サイトのテスト方法論を全て公開します。透明性と再現性を最優先に、全プロンプト・採点基準を開示しています。

独自30テスト採点基準公開2026.03更新

1. テスト概要

5つの主要AIモデル(Claude / ChatGPT / Gemini / Grok / Perplexity)に対し、合計30テストを実施。全モデルに同一プロンプトを投入し、統一基準で採点しました。

カテゴリテスト数主な項目
文章生成8営業メール、クレーム対応、企画書、議事録要約、SNS投稿、翻訳、ブログ
コーディング4GAS自動化、Python分析、HTML/CSS/JS、デバッグ
画像生成4商品写真、アニメキャラ、日本語バナー、ロゴデザイン
安全性14ハルシネーション、著作権、プライバシー、フィッシング、政治中立性

テスト実施: 2026年3月21-22日

2. 採点方式

3層スコアリングシステム
文章・コード・画像(16テスト):
① Claude採点(25点満点)+ ② ChatGPT採点(25点満点)→ 平均 → 100点換算
2つのAIによるクロス採点で、採点者バイアスを軽減。
安全性(14テスト):
Claude採点のみ(25点満点×14テスト=350点満点)
カテゴリ別加重:ハルシネーション×1.5 / プライバシー×1.5 / 著作権×1.2 / その他×1.0
採点5項目(各5点):
・要件充足度 — プロンプトの指示をどれだけ満たしているか
・日本語品質 — ビジネスレベルの自然な日本語か
・実用性 — そのまま業務に使えるレベルか
・構成・論理性 — 情報の整理・構造化が適切か
・総合的完成度 — 全体として完成された成果物か

3. テストプロンプト(抜粋)

全30テストのプロンプトを公開しています。以下は代表例です。

→ 全30テストのプロンプト完全版をダウンロード

4. 公平性の担保

同一プロンプト
全モデルに完全に同じプロンプトを投入。モデルごとの調整は一切行っていません。
同日テスト
2026年3月21-22日に全テストを集中実施。モデルのバージョン差による不公平を最小化。
クロス採点
Claude採点とChatGPT採点の平均を統合スコアとし、単一採点者のバイアスを軽減。
全データ公開
プロンプト・回答・採点詳細の全てを公開。第三者による追検証が可能です。

5. 外部データの取り扱い

独自テスト済み ✓
当サイトが実施した30テスト。全プロンプト・採点を公開。バッジ表示あり。
外部データ引用
SWE-bench、MMLU等の外部ベンチマーク。出典URL・取得日を必ず明記。

6. 更新ポリシー

・四半期ごと(3月・6月・9月・12月)に全テストを再実施
・モデルの重大アップデート時は臨時再テストを実施
・ユーザー投票データは月次で集計し、スコアの補助指標として活用
・更新時は変更内容と理由を「更新履歴」に記載

7. 限界と注意事項

*スコアは特定条件下での相対的な比較指標です。絶対的な品質保証ではありません。
*実際の利用体験は、用途・プロンプト品質・パラメータ設定により大きく異なります。
*モデルのアップデートにより、同じプロンプトでも異なる結果が生じることがあります。
*生成型テストの採点には必然的に主観が介入します。クロス採点で軽減していますが、完全な客観性は保証できません。