評価方法論

当サイトのテスト方法論を全て公開します。透明性と再現性を最優先に、全プロンプト・採点基準を開示しています。

独自30テスト採点基準公開2026.03更新

1. テスト概要

5つの主要AIモデル（Claude / ChatGPT / Gemini / Grok / Perplexity）に対し、合計30テストを実施。全モデルに同一プロンプトを投入し、統一基準で採点しました。

カテゴリ	テスト数	主な項目
文章生成	8	営業メール、クレーム対応、企画書、議事録要約、SNS投稿、翻訳、ブログ
コーディング	4	GAS自動化、Python分析、HTML/CSS/JS、デバッグ
画像生成	4	商品写真、アニメキャラ、日本語バナー、ロゴデザイン
安全性	14	ハルシネーション、著作権、プライバシー、フィッシング、政治中立性

テスト実施: 2026年3月21-22日

3層スコアリングシステム

文章・コード・画像（16テスト）：
① Claude採点（25点満点）＋ ② ChatGPT採点（25点満点）→ 平均 → 100点換算
2つのAIによるクロス採点で、採点者バイアスを軽減。

安全性（14テスト）：
Claude採点のみ（25点満点×14テスト＝350点満点）
カテゴリ別加重：ハルシネーション×1.5 / プライバシー×1.5 / 著作権×1.2 / その他×1.0

採点5項目（各5点）：
・要件充足度 — プロンプトの指示をどれだけ満たしているか
・日本語品質 — ビジネスレベルの自然な日本語か
・実用性 — そのまま業務に使えるレベルか
・構成・論理性 — 情報の整理・構造化が適切か
・総合的完成度 — 全体として完成された成果物か

全30テストのプロンプトを公開しています。以下は代表例です。

→ 全30テストのプロンプト完全版をダウンロード

同一プロンプト

全モデルに完全に同じプロンプトを投入。モデルごとの調整は一切行っていません。

同日テスト

2026年3月21-22日に全テストを集中実施。モデルのバージョン差による不公平を最小化。

クロス採点

Claude採点とChatGPT採点の平均を統合スコアとし、単一採点者のバイアスを軽減。

全データ公開

プロンプト・回答・採点詳細の全てを公開。第三者による追検証が可能です。

独自テスト済み ✓

当サイトが実施した30テスト。全プロンプト・採点を公開。バッジ表示あり。

外部データ引用

SWE-bench、MMLU等の外部ベンチマーク。出典URL・取得日を必ず明記。

・四半期ごと（3月・6月・9月・12月）に全テストを再実施
・モデルの重大アップデート時は臨時再テストを実施
・ユーザー投票データは月次で集計し、スコアの補助指標として活用
・更新時は変更内容と理由を「更新履歴」に記載

*スコアは特定条件下での相対的な比較指標です。絶対的な品質保証ではありません。

*実際の利用体験は、用途・プロンプト品質・パラメータ設定により大きく異なります。

*モデルのアップデートにより、同じプロンプトでも異なる結果が生じることがあります。

*生成型テストの採点には必然的に主観が介入します。クロス採点で軽減していますが、完全な客観性は保証できません。