Double Dutch Delight Japan 2015 10周年で審査員10人の採点を考えてみた
10周年と10人という数字は特に意味がないと思いますが!
こんにちは、おかもんです。
下記の記事がまだ1年前だったということに若干の驚きがあります。この時はインドで暇だったのでいっぱいブログ書いてた時期かなー
上の記事で書いてある基本的な考えは今でも同じですね。時間のある方は是非ご覧下さい。
目的
さて、今回の記事は、DDDJ2015(Double Dutch Delight Japan 2015)の採点結果についてちょっと見ていこうという趣旨です。 Double Dutch Delight 2015
注意点しては、「私はこの大会行っていません、観てません!」
ということで、この人のこの採点おかしいよーというより(そんなことは思いもしませんが)、純粋にこういう点数(分布)だったと言われたときに、どういう考察が可能か、ということですね。
点数と表記
一般部門はサンプルが少ないので割愛。オープン部門の点数は以下の通りです。
ここで、ジャッジの名前に意味はないけど、最終的に確認することもできるようにアルファベットで表しました。
S1 | T1 | M | Y | S2 | S3 | H | T2 | F | Z | |
1位 | 9 | 8.5 | 8.5 | 9 | 9 | 6.5 | 9 | 9.5 | 9 | 9.5 |
2位 | 8.5 | 8 | 8 | 8.5 | 8 | 7 | 8 | 9.5 | 8 | 8.5 |
3位 | 9 | 8.5 | 8.5 | 8.5 | 8 | 6.5 | 7.5 | 9 | 7 | 8.5 |
4位 | 8 | 6 | 7 | 8 | 7.5 | 7 | 8 | 7 | 7.5 | 8.5 |
5位 | 8.5 | 7 | 7 | 8 | 7 | 6 | 6.5 | 8.5 | 7 | 9 |
6位 | 8.5 | 7 | 7 | 6 | 7 | 7 | 8.5 | 7.5 | 7.5 | 8 |
7位 | 8 | 6.5 | 6.5 | 6.5 | 7 | 4 | 6.5 | 8 | 6.5 | 8 |
8位 | 7 | 5 | 6 | 6 | 7 | 6 | 5 | 5.5 | 5.5 | 7.5 |
9位 | 7.5 | 6 | 6 | 6.5 | 5 | 3 | 5 | 7 | 6 | 8 |
10位 | 6.5 | 4 | 4.5 | 4.5 | 4 | 3 | 4 | 5 | 3.5 | 5 |
11位 | 6.5 | 4.5 | 5 | 4 | 4 | 3 | 3.5 | 4.5 | 3 | 4 |
Double Dutch Delight Japan 2015の結果 (公式HPより)
統計の色々な値(ここは飛ばしても全く問題ありませんでした)
まずは、折角サンプルがある程度あったので、適当にExcelの機能を使って出しました(表示が崩れているのはご愛嬌)。
S1 | T1 | M | Y | S2 | S3 | H | T2 | F | Z | |
平均 | 7.91 | 6.45 | 6.73 | 6.86 | 6.68 | 5.36 | 6.50 | 7.36 | 6.41 | 7.68 |
標準誤差 |
0.28 | 0.46 | 0.40 | 0.50 | 0.50 | 0.52 | 0.57 | 0.53 | 0.55 | 0.51 |
中央値 | 8 | 6.5 | 7 | 6.5 | 7 | 6 | 6.5 | 7.5 | 7 | 8 |
最頻値 | 8.5 | 8.5 | 7 | 8.5 | 7 | 7 | 8 | 9.5 | 7 | 8.5 |
標準偏差 | 0.917 | 1.540 | 1.311 | 1.675 | 1.647 | 1.733 | 1.884 | 1.762 | 1.828 | 1.677 |
分散 | 0.841 | 2.373 | 1.718 | 2.805 | 2.714 | 3.005 | 3.550 | 3.105 | 3.341 | 2.814 |
尖度 | -1.109 | -1.029 | -0.660 | -0.947 | -0.510 | -1.684 | -1.310 | -1.100 | 0.136 | 1.642 |
歪度 | -0.507 | -0.147 | -0.202 | -0.433 | -0.700 | -0.600 | -0.329 | -0.394 | -0.813 | -1.532 |
範囲 | 2.5 | 4.5 | 4 | 5 | 5 | 4 | 5.5 | 5 | 6 | 5.5 |
最小 | 6.5 | 4 | 4.5 | 4 | 4 | 3 | 3.5 | 4.5 | 3 | 4 |
最大 | 9 | 8.5 | 8.5 | 9 | 9 | 7 | 9 | 9.5 | 9 | 9.5 |
合計 | 87 | 71 | 74 | 75.5 | 73.5 | 59 | 71.5 | 81 | 70.5 | 84.5 |
標本数 | 11 | 11 | 11 | 11 | 11 | 11 | 11 | 11 | 11 | 11 |
あんまり統計に詳しくないのですが、統計的に重要な値は標準偏差(分散)です。これは大雑把に言うと、「サンプルがどれだけばらついているか」を示す値です。
つまり、標準偏差が大きいほど、(ある1人の)ジャッジの点数が低いところから高いところまでバラバラであると言えます。
ジャッジのバラバラ度=影響度?
極端な場合を考えればすぐに分かりますが、バラバラな点数を与えたジャッジほど、順位に及ぼす影響が大きい、と言えます。
[例えば、点数を全て5-6点をつけたジャッジAとジャッジB、点数を1点から10点までつけたジャッジCがいた場合に、A,B合わせても最大2点しか差がつかないのに、C1人でその差を覆す力を持っている]
つまり、色んなことを無視してこの値だけ見た場合には、下の順番で順位に大きな影響を与えたジャッジということができましょう。
H | 1.884 |
F | 1.828 |
T2 | 1.762 |
S3 | 1.733 |
Z | 1.677 |
Y | 1.675 |
S | 1.647 |
T1 | 1.540 |
M | 1.311 |
S1 | 0.917 |
そんなことは計算なんてしなくても点数を見ただけで分かると思った方、その通り!
S1の点数が似通っていて、H、Fの点数がばらけているのは一目瞭然。
注意点
1点目、HとS1は標準偏差の値が2倍離れていますが、これがためにHがS1の2倍の影響を持っていたとするのは誤りなはずです。きちんと勉強してないので確かなことは言えませんが、今回はこの数字の絶対値での議論はやりにくい気がします。(そもそも影響って何ぞや、って話は別で存在。)
2点目、基本的にはバラバラだと影響力が増すのですが、実際の順位に影響を与える点数のつけ方は別で存在します(1位になりそうなチームだけ1点にして、2位になりそうなチームを満点にしたらひっくり返るくらいの点数ですしね)。
3点目、サンプル数が少ない(11)時に、10位と11位は目立って点数が低いですよね。そうすると、その数字は正確な値を出すときに問題になってくることがあります(棄却検定とかってこういう時使うのどうなんだろ?)。
結局言いたいことは何か
結局のところ、いくつか言いたいことはあるのですが、上の話と関係ない話もいくつかあります。上はちょっと計算したから載せたかっただけですね、はい。
言いたいこと1
ジャッジが10人いても、1人1人が順位に与える影響は違う。(ジャッジ目線で、自信がないときは点数を近い値にしておけば、結果として自分の責任は減らせる)
言いたいこと2
点数分布的には、H、Fがばらけていて、一見すると良い気がする。
言いたいこと3
(自分の中での)上位3-5チームの点数にほとんど違いがない人は、ジャッジをした意味が薄い気がする。どれが上に来るかなんて分からないから難しいところではあるけど、そこを区別するのがジャッジ。
個人的な願望としては、少なくともそれぞれの1位と2位くらいは出ておいて欲しいなぁ。
言いたいこと4
ジャッジの数が増えれば増えるほど、各ジャッジが満点に近い点数を与えれば与えるほど、全てを満遍なくこなせるチームじゃないと点数が出なくなる。
(言いたいこと5)
(今思ったけど、1点刻みの20点満点と0.5点刻みの10点満点って同じことだけどそれだけで結果違いそうな気がする。)
最初に書いた目的と若干違うことで終わってしまっている感じがしますが、このまま投稿!皆様のご意見お待ちしています。