平成292017)年度 共同利用登録実施報告書

 

課題番号

29−共研−11

分野分類

統計数理研究所内分野分類

g

主要研究分野分類

1

研究課題名

擬似乱数用統計的検定パッケージの信頼性に関する研究

フリガナ

代表者氏名

ハラモト ヒロシ

原本 博史

ローマ字

Haramoto Hiroshi

所属機関

愛媛大学

所属部局

教育学部

職  名

講師

 

 

研究目的と成果の概要

擬似乱数用統計的検定パッケージとして広く利用されているものに、モントリオール大学のP. L'Ecuyer氏およびR. Simard氏の開発したTestU01と、米国国立標準技術研究所(NIST)の作成した検定パッケージがある。これらのパッケージは、評価したい擬似乱数生成法の出力列に対して複数の統計的検定を行い、より多くの検定に合格したものを「良い擬似乱数生成法」と判定する、という利用がなされている。現在も擬似乱数研究において標準的に利用されている一方、NISTの検定パッケージは数多くの数学的・技術的問題点が指摘され、各検定におけるp値計算の近似精度を高める改善が報告されている。TestU01に関しては特に組織的な調査は行われていない上、開発者の引退に伴い保守が停滞している状況である。

今回の研究は、奥富秀俊氏(東芝)、中村勝洋氏(千葉大学)が2010年に提唱した三重検定を適切に改善・運用し、TestU01およびNISTの統計的検定パッケージに含まれている検定法の信頼性評価を行うものである。研究の結果、すでに理論的に問題があると指摘されていたNIST検定パッケージに含まれる検定法を実験的にも指摘できたこと、さらにそれらの改善方法がp値の計算精度を向上させていることを明らかにした。またTestU01についてもいくつかの誤りを初めて発見することに成功した。以下、具体的に手法と結果を述べる。

0以上1未満の実数を独立・一様に生成する擬似乱数生成法を用いて、サンプルサイズnの統計的検定をN回行い、p値が有意水準a(0<a<1)を超える回数Tを数える。統計量が連続型分布に従うとき、p値の分布は閉区間[0, 1]に一様に分布するため、Tは二項分布B(1-a, N)に従う。この数え上げをN'回繰り返して行い、N'個のTの値の分布と二項分布B(1-a, N)との適合度検定を行う。このとき得られるp値が極めて小さい(例えば10の-10以下)場合、統計的検定のp値計算に無視できない計算誤差が含まれると判断する。

この手法は実験的であるため、数学的な解析が困難な統計量に対しても容易に適用可能であること、計算機で実装する際の誤差や誤りといった計算機固有の問題も検出することが可能である点で優れている。他方、莫大な計算資源が必要となる(今回の調査対象の場合、nを10の7乘から8乘程度、NおよびN'を1000としている)ため、統計数理研究所の計算機資源を利用した実験を行うこととした。

この手法を用いて、奥富・中村両氏の論文発表以降に修正されたNISTの検定パッケージ(現在の最新版である2.1.2)の信頼性調査を行ったところ、最長連検定、離散フーリエ変換検定、テンプレート適合度検定、普遍統計量検定の4検定に依然として無視できない計算誤差が含まれていることを確認できた。さらにそれぞれの検定に対して現在知られている改良を行うと、三重検定に合格(p値が適度な値である)ことを示すことができた。

また、TestU01の検定群Crushに関して三重検定を適用したところ、以下の検定法に誤りがあることがわかった。
(1) svaria_SampleCorr検定は分散を1/12(n-1)としていたが正しくは1/(13n-19)である
(2) sstring_Run検定は統計量に誤りが含まれているものが利用されている
(3) scomp_LampelZiv検定およびsspectral_Fourier3検定は著者自身が近似精度が悪いことを認識していたが、実際三重検定で報告されるp値が10の-300乗未満の値となる
また、誤りではないものの
(4) smarsa_Savir2検定は浮動小数演算に関わる実装上の問題がある可能性が高い
ことが判明した。
これらの結果より(1), (2)では正しい統計量への修正を行い、(3)については削除提案、(4)については三重検定の結果であるp値が極端に小さくならないパラメータの提示を行なった。

以上の結果をまとめて論文とし、計算機シミュレーション分野では著名な国際査読付き論文誌"Mathematics and Computers in Simulation"に投稿したところ、査読者意見を適切に修正した場合に採録される見通しとなり、現在修正作業を行なっている。またモンテカルロ法・準モンテカルロ法に関する国際会議"13th International Conference in Monte Carlo & Quasi-Monte Carlo Methods in Scientific Computing (MCQMC2018)"での擬似乱数分科会での講演依頼を受け、本研究について口頭発表を行うこととなった。