皆さん、「逐次評価」ってご存じですか?冬季五輪のフィギュアスケート。団体もペアもシングルもすごかったですねー。フィギュアスケートはまさに逐次評価です。順番にパフォーマンスをして、順番に評価が行われるということです。スポーツだけではなく、現実社会でも逐次評価が行われることは結構よくあります。例えば、採用の面接。テストの採点。住宅ローンの審査。評価する側は、だいたい前から順番に評価していきます。
実は、評価対象の質とは無関係に、評価される順番そのものが結果に影響を与えますよ、というのが私たちが今回発表した論文です。
実はこのことは既に結構たくさんの論文で示されています。例に挙げたフィギュアスケートについては既に複数の研究が行われており、パフォーマンスの順番が後ろの方が有利になると主張する研究が多いです。
日本のデータを使った有名な研究に、大阪公立大学の岡澤さんと龍谷大の新居さんのNHKの爆笑オンエアバトルのデータを用いた研究があります。10組の芸人がランダムな順番で漫才やコントをやって、観客による得票率の高い上位5組がテレビにオンエアされるというものですが、これは1番最初が一番有利と言う結果になっています。このように順番が結果に与えることを「順序効果」と呼びます。
Is it advantageous to be first? Evidence from a TV comedy program
https://t.co/F7JEhWTovL
今回佐賀大学の浅川慎介さんと東京大学の山口慎太郎さんと私が発表した新しい論文は、日本で一番大きなピアノコンクールの過去10年の全国大会の予選のデータを用いた研究です。のべ演奏者数なんと191万人!
これはすごいヤバいデータですよー。
そして私たちの研究では、ピアノコンクールの場合は、演奏順が早い奏者ほど評価が低くなることが分かりました。なお、これはエリザベート王妃国際コンクールなど、海外で行われているピアノコンクールも同じ結果になっていることとも整合的です。
そもそもどうして順序効果が起こるのでしょうか。色々な仮説があります。例えば疲労。審査や評価が長くなると後ろの方になると疲れて来て、よりデフォルトに近い選択をしやすくなるというわけです。「ギャンブラーの誤謬」だという説もあります。例えば、コイントスをして3回表が続くと、何となく次は裏でしょと思っちゃうことってありませんか。実際には表が出る確率は50%なので、その前に何回表が続こうが関係ないわけですが、偏った結果が続いた後は、次は逆の結果が出るはずという心理的な錯覚を起こしてしまうというわけです。
私たちの研究では、順序効果が起こるのは「キャリブレーション」ではないかと考えています。つまり、審査員は、評価の初期段階では、演奏者全体のパフォーマンスの分布を十分に把握できていないわけです。そのため、最初のほうで「基準」を作ります。この基準を作っている間には、極端な評価を避けて、控えめに評価を付ける。そうすることによって、評価全体の整合性を保とうとするわけです。
じゃぁこの順序効果を何らかの手段で軽減できるのか、と言うことが重要です。実はこれはそう簡単ではなさそうなのです。経験のある審査員が審査を実施した場合や、リハーサルを実施した場合についても調べてみましたが、順序効果を一貫して軽減するという明確な証拠は得られませんでした。
そこで2023年度にある実験をやっています。それは審査員に「順序効果がある」と言うことを知らせるという単純な実験です。審査員に1枚のチラシと短い動画を提供することで、順序効果が軽減できるかを確かめるフィールド実験を実施しました。
結果は残念ながら、順序効果が全体として有意に是正されたという強い証拠は得られませんでした。しかし、上級クラスに限定すると、最初の演奏者の不利が60%程度、軽減される可能性が示唆されました。これは実務的には結構重要で、級が低いと演奏者の学齢も低いわけです。幼稚園児とか小学生とか。なのでコンクールで合格とか不合格とかが人生に大打撃を与えるというわけではないでしょうが、上級クラスになるといわゆる「ガチ勢」になります。「ガチ勢」相手に評価がゆがむと良くないですから、ちゃんと情報を提供することで順番効果をちゃんと軽減できますというのはとても重要なことだと思います。
私たちとしては、順序効果は、評価者の未熟さや不注意によるものではなく、逐次的に判断を下さざるを得ない制度そのものに内在する構造的な問題なのではないかと考えています。冒頭にも申し上げたように、逐次評価って世の中にまぁまぁよくある話で、しかも入試や採用のように、誰かの人生を左右する重大な意思決定が行われることも多いです。なので、この順序効果、どうやって是正するか、結構重要な問題だと思っています。でも私たちの知る限り、順序効果を是正する決定打となるような方策は、まだ世の中には生み出されていないです。
もしも、うちのフィールドを使って研究していいよ!という方がいらっしゃったらぜひお教えください!
データが大規模だととっても嬉しいです笑