コラム

子ども見学デー:BB弾サンプリング実験からの学び

廣瀬 雅代(データ科学研究系)

私がこの統計数理研究所に入所したのは約1年半前である。その間、BB弾サンプリング実験結果の解説文を執筆する機会をいただいた。

ところで、このBB弾サンプリング実験という言葉を初めて聞いたという方は多いのではないだろうか。もちろん、これは国民性調査のような本研究所の大プロジェクトではない。それどころか、研究プロジェクトでさえない。この実験は、子ども見学デーにて、子どもたちに統計やサンプリングのおもしろさを伝える為に開催されている。この実験の過程は以下のとおりである。

1) 水槽の中に入っている白玉と黒玉のBB弾(計10万個)から300個を無作為に実験参加者に独立にすくってもらう。

2) その一部から水槽の中の大体の黒玉の数を推測してもらい、すくった300個の中の黒玉の数をカウントする。

3) そのカウントした黒玉の数を赤色のシールに記載し度数分布表に貼り付ける。(写真2参照)

4) 水槽の中の黒玉の割合を教え、カウントした黒玉の数または事前に推測した数との乖離を確認してもらい、度数分布表の形を確認してもらう。

数学的事実に基づくと、この参加者の数を大きくするにしたがって、値の平均が水槽内の本当の黒玉の数×300100000 に近づき、かつ、度数分布表に張られた赤いシールの分布形が、左右対称の釣鐘型に近づくことが期待される。しかしながら、その数学的事実が成り立つためにはいくつかの条件が満たされなければならない。そのため、2015年度の実験では、水槽内のBB弾をかき混ぜたり、なるべく正確に300個がすくえるような升を用いる工夫がなされていた。ちなみに、300個の中から黒玉の数を効率的にカウントする為、BB弾の黒玉の数をカウントできる画像判別ソフトも用いられた。

それでも、実際は意外とうまくいかないものである。下記度数分布表を見て欲しい。これは2015年度に作成された度数分布表であるが、左右対称の釣鐘型とは程遠い。もちろん、必ずそのような形になるという保証はないし、X軸における区間の幅にも依存するのではあるが、実験の参加者の数は約100人くらいであったので、結果に期待を寄せることは不自然なことではないと思われた。

この数学的事実との大きな乖離に関して様々な原因が考えられたが、そのひとつとして挙げられたのは画像判別ソフトの誤判別の多さであった。ちなみに、この究明が可能になったのは、幸いなことに、画像判別ソフトの中に画像が残っていたためである。それでも300個のBB弾が写っている写真が100枚近く存在したのだが、ありがたいことに所員と学生の計8名の方々の協力のおかげで再カウントを行うことができた。(この場をお借りして、8名の方々に御礼申し上げたい。)

ところで、今回の実験は真の黒玉の数が運営スタッフには知らされていた為、このような実験結果と理論的結果の違いを考察することができたのではあるが、実際には真の値など知らないのが普通である。

「Garbage in, Garbage out.」という言葉がある。

いくらか条件が悪くなったとしても統計側のアプローチにより、精度保証または補正を行うことも不可能ではないかもしれない、そしてそのような研究も必要になってきているように思う。しかしながら、当たり前のことかもしれないが、どんなに統計側のアプローチを改善しようとも、データを取る側、使う側の認識の高さがなければ意味を成さないものにもなりかねない。少なくとも私にとっては、その当たり前のことを、この実験を通して学ぶことができたよい機会であったように思っている。

写真1 実験開始前の様子写真2 黒玉の数に対する度数分布表

ページトップへ