大会の採点について考える -Double Dutch Delight 2014-
旬な時に旬な話題を提供していきたいですね。
今回は、前回(今年の敗者復活について -Double Dutch Delight 2014-)に引き続き、Double Dutch Delightについてです。ここの採点システムをベースに採点について考えていきたいと思います。
まず、得点が公開されているチームが少ないNorthとSouthを除いて、WastとEestの採点一覧を下に示します。
Double Dutch Delight West 2014の結果 (公式HPより)
チーム名 | 技術 | 表現 | 構成 | オリジナル | 完成度 | 合計 |
Mythology | 18 | 18 | 16 | 18 | 18 | 88 |
Vent.E | 16 | 17 | 14 | 17 | 15 | 79 |
SWAGGER | 16 | 17 | 15 | 13 | 16 | 77 |
Altavista | 13 | 18 | 14 | 16 | 16 | 77 |
Limit | 14 | 16 | 13 | 17 | 15 | 75 |
Lemonde | 14 | 15 | 13 | 16 | 16 | 74 |
ZION | 14 | 17 | 11 | 16 | 16 | 74 |
GUINNESS | 13 | 17 | 13 | 13 | 15 | 71 |
Double Dutch Delight Eest 2014の結果 (公式HPより)
チーム名 | 技術 | 表現 | 構成 | オリジナル | 完成度 | 合計 |
TREASURE | 17 | 16 | 18 | 18 | 18 | 87 |
Chap-Lin | 17 | 16 | 17 | 17 | 18 | 85 |
惚翔魁 | 17 | 16 | 16 | 17 | 17 | 83 |
B-JACK | 17 | 15 | 16 | 15 | 16 | 79 |
FENNEL&BLOOM | 14 | 14 | 16 | 16 | 16 | 76 |
櫻羽華 | 15 | 14 | 14 | 18 | 15 | 76 |
D-United | 14 | 14 | 15 | 17 | 14 | 74 |
DIANA | 14 | 13 | 14 | 17 | 13 | 71 |
1. 審査員間での得点分布による影響力の大小について
West
技術 | 表現 | 構成 | オリジナル | 完成度 | |
点数分布 | 13-16 | 15-18 | 13-16 | 13-18 | 15-16 |
差 | 3 | 3 | 3 | 5 | 1 |
特異点 | 18 | - | 11 | - | 18 |
East
技術 | 表現 | 構成 | オリジナル | 完成度 | |
点数分布 | 14-17 | 13-16 | 14-18 | 15-18 | 13-18 |
差 | 3 | 3 | 4 | 3 | 5 |
特異点 | - | - | - | - | - |
精確にするには、得られる分布関数を見て話をするところですが、今回はやりません。こういう話もあるよとお伝えするのが目的なのと、統計あんまり知らないもので。。。
(例えば6チームに10,11,12,13,14,15、と、10,10,12,12,15,15と採点している人では上の点数分布、差、特異点は一緒ですが与える影響は違いますよね、ということです。)
さて、ここでかなり重要なのが「差」です。大雑把に言うと、ここの値が大きい項目ほど順位に関係しています。
Westで5点差がある「オリジナル」と差が1点の「完成度」。明らかにオリジナルによる影響の方が大きいのが分かると思います。
同様にEastは「完成度」が順位に与える影響が大きかった訳です。
誤解を恐れずに言うと、「差」が小さいとその審査員は審査をした意味がなかったということですね(結果的に、ですが)。
審査員が5人いるわけですが、順位には全員から等しく影響を受けている訳ではないのです。
審査員からの影響を等しくする方法としては順位点が考えられます。各項目の評価の高いチームから並べて、上から50点、49点、48点、、、とする方法です。実用的には上から8チームを並べて8点、7点、6点、、、、としたらできます。
この方法の問題点は、ある項目で突出した評価で1番高い評価をもらっても2位と点数的には1点しか変わらない事です。あと、点数を付けるチームが多くなればなるほど少しの評価の差が大きな点数の差になってしまうことも問題です。
もうひとつは、得点分布を出して、何らかの分布で近似して正規化することです。ただ、色々と面倒な上に分かりにくいです。同点がほとんど出ないはずなのは良いことですが。
まー例えば本当に構成がどこも似たり寄ったりで、オリジナルが一番重要な要因であったのならオリジナルが順位に影響を与えても良いとは思います。ただ、その似たり寄ったりを審査するのが仕事だろーよ、とも思います。
難しいところです。
2. 評価基準の不適当さによる適正評価の困難さについて
適正な評価基準を作らないとしっかりとした評価ができません、という話。
例えば、大人に小学1年生の算数の問題を解いてもらったとしたらどうなりますか。少しのミスをする人がたまにいて、95点~100点になったとしましょう。
また、逆に高校1年生に難関大学の数学の入試問題を解いてもらうと0点~10点くらいになっても不思議ではありません。
どちらのケースでも、実際の算数・数学能力を正しく評価できる問題でないことは明白です。小学1年生の算数95点(最低点)の人が難関大学の数学100点(最高点)取れる人こともあります。
つまり、目的によって評価の方法は違うものであるべきなのです。
これを今回のケースに当てはめてみましょう。
これは何年も前から言っていますが、目的をJapan大会に行くチームを選抜することだとすると、始めたばかりの1年生の演技は全項目1点の合計5点で問題ありません。
1年生10チームなり20チームで、実際には内容に差があったとしても、点数に反映されていなくても全く問題はないのです。
それより、わざわざ1点~20点と20段階も評価基準があるなかで、Japanに行くかどうかを競っているチームが、多くても5点しか差がないことはどうなんでしょう。
Japanに行くかどうかのレベルを判断するための大会なんだから、このあたりにいるチームに、上と下を少し空けるとしても、4点~16点くらいを付けて明確に判断するべきなんじゃないかと思うわけです。
大会の採点という観点からはまだまだ議論するべき点がありますが、とりあえず今回の大会からすぐ分かる事について書いてみました。
そもそもこの採点の仕方ってどうなのよ、という点については後日書きたいと思います。
追記 :その記事はこちら(パフォーマンスの理想的な採点方法 -競技とパフォーマンスの違いから考察する-)です。
追記2:Japan大会で同じ数字の分析をしたのがこちら(大会の採点について考える2 -Double Dutch Delight 2014-)です。
す。