| 執筆者 | 浅川 慎介(佐賀大学)/中室 牧子(ファカルティフェロー)/山口 慎太郎(東京大学) |
|---|---|
| 研究プロジェクト | 機能するEBPMの実現に向けた総合的研究 |
| ダウンロード/関連リンク |
このノンテクニカルサマリーは、分析結果を踏まえつつ、政策的含意を中心に大胆に記述したもので、DP・PDPの一部分ではありません。分析内容の詳細はDP・PDP本文をお読みください。また、ここに述べられている見解は執筆者個人の責任で発表するものであり、所属する組織および(独)経済産業研究所としての見解を示すものではありません。
政策評価プログラム(第六期:2024〜2028年度)
「機能するEBPMの実現に向けた総合的研究」プロジェクト
多くの評価の場面では、候補者や作品が一人ずつ順番に提示され、それに対して評価が行われる。音楽やスポーツのコンテスト、採用面接、研究助成の審査、さらには司法判断に至るまで、こうした逐次評価は現実社会で広く用いられている。しかし、評価対象の質とは無関係に、提示された順番そのものが判断に影響を与える可能性があることは、これまで十分に検証されてこなかった。本研究は、こうした「順序効果」がなぜ生じるのか、またそれを是正することが可能なのかを、現実の大規模な評価制度を用いて検証したものである。
本研究の分析対象は、日本最大規模のピアノコンクールである。2004年から2022年までの長期にわたる観察データと、2023年度に実施したフィールド実験を組み合わせることで、順序効果の実態とその緩和可能性を検討した。このコンクールでは、演奏順がコンピュータによってランダムに決定され、演奏者が事前に順番を選ぶことはできない。そのため、演奏順と演奏者の能力や属性が体系的に結びつく可能性が低く、順序効果を検証する上で非常に適した設定となっている。
長期の観察データを用いた分析から明らかになったのは、演奏順が早い奏者ほど評価が低くなるという、頑健な順序効果が一貫して存在しているという事実である。特に、最初の1番目から3番目に演奏した奏者は、それ以降の奏者と比べて統計的に有意に低い評価を受けており、その差は最大で約0.12標準偏差に達していた。この結果は、後ろの順番が有利になると報告してきた既存研究とは異なり、評価の序盤で点数が抑制されるという特徴的なパターンを示している。
さらに、この順序効果はすべての大会で同じ強さで現れるわけではない。参加者数が少ない大会や、演奏者の水準が高く競争が激しい上級クラスにおいて、順序効果はより大きくなることが示された。一方で、審査員の経験年数や資格の有無、リハーサルの実施といった要因が、順序効果を一貫して軽減するという明確な証拠は得られなかった。これらの結果は、順序効果が単なる疲労や不注意によって生じているわけではないことを示唆している。
順序効果が生じるメカニズムとして、本研究が重視するのが「キャリブレーション」と呼ばれる過程である。審査員は、評価の初期段階では、演奏者全体のパフォーマンスの分布を十分に把握できていない。そのため、後からより優れた演奏が現れる可能性を考慮し、評価の整合性を保とうとする動機から、極端に高い評価を避け、初期の評価を控えめにする傾向が生じる。この傾向は、評価のステークスが高く、判断の一貫性がより強く求められる場面ほど強まると考えられる。
こうした理解に基づき、本研究では、審査員に対して過去のデータを用いて順序効果の存在とその大きさを明示的に伝える情報提供介入を設計し、その因果効果を2023年度のコンクールにおいて検証した。紙の資料と短い動画を用いたこの介入は、評価手続きや運営を大きく変更することなく実施できる、現実的な方法である。
フィールド実験の結果からは、情報提供によって順序効果が全体として有意に是正されたという強い証拠は得られなかった。すなわち、順序効果の存在を認識させるだけでは、多くの場合、審査員の評価行動は大きく変わらないことが示された。ただし、上級クラスに限定すると、最初の演奏者の不利が部分的に緩和される可能性が示唆された。評価のステークスが高い場面では、審査員が順序効果を意識し、意図的に調整しようとする行動が一部で観察されたと解釈できる。
本研究の結果は、逐次評価における順序効果が非常に頑健であり、評価者個人の注意や努力に依存した介入だけでは十分に是正できないことを示している。順序効果は、評価者の未熟さや不注意によるものではなく、逐次的に判断を下さざるを得ない制度そのものに内在する構造的な問題である可能性が高い。そのため、評価の公平性を確保するためには、評価順の設計や評価ルールの見直し、あるいは事後的な補正を含む制度的な対応を検討する必要がある。
逐次評価は、芸術やスポーツの分野にとどまらず、採用、教育、研究評価、行政判断など、社会の多くの重要な意思決定において不可欠な制度である。本研究は、現実の大規模データとフィールド実験を用いることで、逐次評価の公平性をめぐる議論に実証的な基盤を提供し、より公正な評価制度の設計に向けた示唆を与えるものである。
1. 2004~2022年度(コロナウィルス感染症対策で中止となった2021年度を除く)までにピティナ・ピアノコンペティションに参加したのべ約191万人の演奏者の評点を用いた。標準化得点は、5人の審査員の最高点と最低点を除いた平均点を、コンクールの開催年・地区・級ごとに平均0、分散1となるように変換した値。
2. 演奏順は欠席者・リハーサルを除く。
3. 大会・級によって参加者数が異なるため、最終奏者までを含めると、最終奏者に近づくほど分散が大きくなるため、図では、各大会・級の最初の90%までの演奏者の評点のみを図に含めた。