統計数理研究所におけるデータ解析,モデル開発の中心となっているのは統計科学スーパーコンピュータシステムである。平成16年1月に分散記憶型並列計算機HITACHI SR8000を中心としたシステムから共有記憶型並列計算機SGI Altix3700への更新が行われた。SGI Altix3700は5.2GFLOPSの速度を有したCPU(1.3GHzのItaium2)から構成されるcc-NUMA型の計算機であり,1ノードは64CPUを有しており,4ノード構成(256CPU),総主記憶量は1,920GBである。1台のノードのみにではあるが,133MB/sの発生速度を有する物理乱数発生ボードを16枚,実装している。このボードは1プロセスから複数のボードを使用できるようなドライバを持っており,2枚以上使用した場合は,擬似乱数を用いる場合よりも高速な計算を可能にしている。
Altix3700を用いて,多種多様な大規模統計解析および統計的シミュレーションが実行されている。中規模統計解析のためにはHITACHI SR11000(Power4+ 1.7GHz 64CPU 主記憶:128GB)を用いている。また,ベクトル計算機向きのプログラムはNEC SX6(12CPU 主記憶:128GB)を用いている。
イーサネットに接続されたワークステーション,パーソナルコンピュータを端末として用い,効率的にプログラムの作成,編集,デバッグ及び計算の実行等が行われている。なお,所内情報網については平成10年12月に1000Base-SXの幹線に4台のレイヤー3スイッチで接続された100Base-TXの支線を各研究室に配線する工事を行った。
ブートストラップ法,モンテカルロ法,非線形フィルタリング等の計算統計学の諸手法を用いた解析及び新たな計算統計学の手法の研究・開発のための計算統計学支援システムを平成18年1月にSGI2800を中心としたシステムからHP XC4000(計算ノード,Opteron 2.6GHz:256CPU,主記憶:640GB)を中心としたシステムに更新した。また,平成9年3月にはSGI Onyxを中心とした統計動画像システムを導入し,動画像を利用した統計的データ解析法の研究のために用いている。さらに,平成13年2月には,100台のパーソナルコンピュータのクラスタシステム,ブートストラップシステムを導入した。計算統計学支援システムに物理乱数サーバーを8式(1式あたりOpteron2.4GHz:2CPU,主記憶:4GB,発生速度32MB/sの物理乱数ボード:4枚)を含めるために,ブートストラップシステムの規模を32CPUに縮小した。このシステムの第一の特色は各パーソナルコンピュータのPCIバスに32MB/秒の発生速度を有する物理乱数発生ボードを接続していることである。ブートストラップ法の計算を並列的に実行することができる。平成13年3月にはOnyx3000を中心とした高精度高速グラフィックシステムを導入した。SAN(Storage Area Network)で計算統計学支援システム,ブートストラップシステムと磁気ディスクを共有できるようにしており,大量データの高速演算,高精度高速可視化を可能にしている。
プログラム言語としては,FORTRAN及びCが最も多く使用されている。Altix3700,SR11000,SX6ともOpenMP,MPIにより並列化が可能であり,バッチジョブのためにはPBS,NQSを用いている。Altix3700,SX6はWebブラウザからのジョブの投入も可能となっている。XC4000ではMPIを用いて並列計算を行っている。
SAS,SPSS-X,BMDP,IMSL,NAG等の市販プログラムについては,SASは,計算統計学支援システムのサブシステムであるアプリケーションサーバ(Xeon 3GHz:2CPU,主記憶:16GB,OS:Linux)で稼働させている。SPSSはWindowsパソコン上での利用が可能である。前システムではHP9000C240でIMSLを用いていたが,Altix上ではIMSLが動作する。IMSLはブートストラップシステムでも使用可能である。また,XC4000の計算ノード上ではNAGライブラリが使用可能である。また,計算統計学支援システムの可視化サーバーであるPrism(Itanium2 1.5GHz:16CPU,主記憶:32GB)上ではAVSが使用可能である。
プログラム開発及び比較的規模の小さいデータ解析のためにワークステーション,パーソナルコンピュータが使われている。プログラム言語としては,FORTRAN,C,S,Java,R,MATLABが良く使われている。MATLAB用の計算機として上記のSAS用サーバーと同仕様の計算機を別に一式導入している。Altix上では並列化されたRを用いることも可能である。データの可視化のためにAVS,PV-WAVE,数式処理のためにMathematica,Mapleも良く使われている。ワークステーション,パーソナルコンピュータ,統計科学スーパーコンピュータシステム,計算統計学支援システム,ブートストラップシステム,高精度高速グラフィックシステムはイーサネットに接続されており,計算資源の有効利用及び負荷の分散を図っている。イーサネットに接続されている計算機間では,ftpによるファイル転送が可能である。この機能により,プログラム資源,データ資源を有効に共有することができる。また,イーサネットに接続されているパーソナルコンピュータ,ワークステーションからは,ワークステーション,統計科学スーパーコンピュータシステム,計算統計学支援システム,ブートストラップシステム,高精度高速グラフィックシステムを自由に利用することができ,研究・開発を能率的に行える。現在のネット網は図4に示す通りである。SINETを通して国内外のインターネットと接続されている。平成14年7月に接続速度を1.5Mbpsから100Mbpsへと増強した。平成19年4月からはSINET3に2.4Gbpsで接続されている。公衆回線からはターミナルサーバを通して利用することができる。
統計科学技術センターが管理・運用するコンピュータ等を利用できるのは,所員(客員を含む),共同研究員,外来研究員,総合研究大学院大学の大学院生,名誉教授及び統計数理研究所統計科学計算システム利用規定に定められた資格を有するものに限られる。コンピュータに関する管理・運営は,「統計科学技術委員会」の協議に基づいて,統計科学技術センター計算資源室及びネットワーキング室が行っている。
統計数理研究所で開発されたソフトウェアの配布も行っている。表1に主なプログラムを示す。統計ソフトウェアの開発,整備,配布は統計科学技術センターが行っている。
機器構成の概略
1. 統計科学スーパーコンピュータシステム関係 ・並列計算機Altix3700(256CPU,1331.2GFLOPS,主記憶1,920GB) ・並列計算機SR11000(64CPU,435.2GFLOPS,主記憶128GB) ・ベクトル計算機SX6(12CPU,108GFLOPS,主記憶128GB) ・ユーザ用磁気ディスク装置(5.12TB,RAID5) ・テープライブラリ(14TB,LTO Ultrium2(200GB)70巻) ・レーザプリンタ(両面2台,片面3台) ・物理乱数ボード(133MB/s 16枚) ・入出力サーバー(PowerEdge600SC 2台) ・パソコン端末(OptiPlex GX270 10台) 2. 計算統計学支援システム関係 ・HP XC4000 計算ノード(HP ProLiant DL 145G2 128ノード: 1ノードの構成:Opteron 2.6GHz 2CPU,主記憶4GB(96ノード),8GB(32ノード)) システム管理ノード(HP ProLiant DL385 1ノード: 1ノードの構成:Opteron 2.6GHz 2CPU,主記憶8GB) ログインノード(HP ProLiant DL385 4ノード: 1ノードの構成:Opteron 2.6GHz 2CPU,主記憶8GB) ・ユーザ用磁気ディスク:実効容量12TB(RAID5+1) ・物理乱数サーバー(HP ProLiant DL585 1ノード: 1ノードの構成:Opteron 2.4GHz 2CPU,主記憶4GB,物理乱数ボード 8枚) ・アプリケーションサーバ(システムワークスT8250 2ノード: 1ノードの構成:Xeon 3.0GHz 2CPU,主記憶16GB) ・O2コンソール × 1 ・可視化サーバー(SGI Prism 1ノード: 1ノードの構成:Itanium2 1.5GHz 16CPU,主記憶32GB グラフィックカード 8枚) 3. ブートストラップシステム関係 ・ SGI1200(PentiumIII(800MHz),512MBメモリ,物理乱数ボード)32台 ・ Origin3400(R12000(400MHz)プロセッサ× 8,8GBメモリ) ・ SGI1450(PentiumIII Xeon(700MHz) × 4,2GBメモリ) ・ 磁気ディスク(RAID5 145.6GB) 4. 高精度高速グラフィックシステム関係 ・ Onyx3200(R12000(400MHz)プロセッサ ×4,2GBメモリ) ・ IR3グラフィクスパイプライン ・ 256MBテキスチャメモリ ・ 2チャンネルディスプレイジェネレータ ・ 24インチモニタ ・ TP9100ストレージシステム(73GBハードディスク×24) ・ DMS-B9オートローダ(DTF 2ドライブ) 5. ワークステーション関係 (上記4システム関係を除き統計科学技術センターが管理・運営している台数。) ・Enterprizse3500 1台 ・VT-Alpha6 1台 ・Enterprise450 1台 ・RS-6000/43P-260 1台 ・Ultra30 1台 ・AS7000 1台 ・TITAN VISTRA 1台 ・RS-6000/520 1台 ・RS-6000/3BT 1台 ・RS-6000/250 4台 ・TITAN3000V 1台 ・UX3000 1台 ・MIPS RC6280 1台 ・Onyx(2CPU) 1台 ・3050RX 3台 ・ORIGIN2000(4CPU) 1台 ・S4/10 2台 ・SS/20 3台 ・S4/2 3台 ・SUN4/60 1台 ・SUN4/370 2台 ・Enterprise220R 1台 ・Netra T1 3台 ・Sun Blade 1台 ・Primepower1 4台 ・Express5800 3台 6. その他 ・特殊用途ミニコンピュータシステム 1台 ・アナログ計算機(EAI1000) 2台
【表1 統計数理研究所が開発した主なプログラム】
プログラム名 | 利用分野<事例> | 提供先機関名 |
TIMSAC<ティムサック> 時系列データの解析,予測,制御のための総合的プログラムパッケージ |
・ 脳波分析 ・ 経済変動の分析 ・ 工業プロセスの最適制 御 ・ 船舶のオートパイロッ トへの適用 ・ 地震データの解析 |
京都大学 高エネルギー物理学研究所 東京大学 社団法人漁業情報サービスセンター 大分医科大学 東京電力福島原子力発電所 九州大学 サッポロビール株式会社 米国商務省 東京都老人医療センター 等 |
BAYSEA<ベイシー> 季節変動・週変動・日変動等の周期的変動を含むデータを解析するためのプログラム |
・ 経済時系列データの季 節調整 |
東京大学 通商産業省 筑波大学 社団法人中央調査社 横浜市立大学 経済企画庁 日本銀行 米国センサス局 等 |
CATDAP<キャットダップ> カテゴリカルな目的変数に対する最適な説明変数を自動的に選択するためのプログラム |
・ 多次元クロス表の分析 ・ データマイニング |
京都大学 農林水産省 日本女子大学 国立療養所南福岡病院 名古屋大学 花王株式会社東京研究所 東京女子大学 読売新聞社 等 |
NOLLS1<ノルス1> 非線形最小二乗法のプログラム(関数群の二乗和を最小にするパラメータの値を数値的に求める) |
・ 原子炉材料解析 ・ プラント機器設計 ・ 新薬の薬動力学解析 ・ 呼吸器系の音波による 内部解析 ・ X線分光学におけるス ペクトル解析 |
千葉大学 日本IBM株式会社 京都大学 東京大学海洋研究所 名古屋大学 東京都環境科学研究所 電力中央研究所 東北大学電気通信研究所 独協大学 UCLA 等 |
QUANT<クオント> 数量化理論のプログラム 質的データの多変量解析 予測・判別・分類・要因分析 |
・ 青少年の行動調査分析 ・ 臨床医学データの分析 ・ 選挙予測 ・ 広告効果分析 ・ 教育心理等のデータ解 析 |
東京大学 社団法人新情報センター 東京工業大学 環境数理研究所 筑波大学 電通 兵庫教育大学 朝日新聞社 建設省 読売新聞社 等 |
DALL<ドール> 最尤法によるモデルあてはめのためのDavindon法による対数尤度最大化のプログラム |
・ 医学データ解析 ・ 非定常多次元時系列 データ解析 ・ 最尤法が必要な全分野 |
国立天文台 大分医科大学 米国国立電波天文台 等 |
ARdock<エイアールドック> TIMSACによるシステム解析を対話的に行えるようにしたプログラム |
・ プラント解析 ・ システム解析 ・ 生体情報解析 |
大分医科大学 明治大学 等 |
TIMSAC for Windows <ティムサック フォ ウインドウズ> TIMSAC72の一変量ARモデル,多変量ARモデルをMS-WINDOWS上で動作するようにしたプログラム |
・ 脳波分析 ・ 生体活動の分析 ・ 商品売上予測 ・ 株価予測 ・ 地震データの解析 |
富士総合研究所 安田信託銀行 三菱総合研究所 日本開発銀行 明治生命 日経データ 住宅金融公庫 和光経済研究所 住友生命 一橋大 東京学芸大学 九州大学 等 |
CATDAP for Windows <キャットダップ フォ ウインドウズ> カテゴリカルな目的変数に対する最適な説明変数を自動的に選択するためのプログラムのWindows バージョン |
・ 多次元クロス表の分析 ・ データマイニング |
京都大学 慶應義塾大学 等 |
TIMSAC for R package <ティムサック フォ アールパッケージ> TIMSACをフリーの統計解析ソフトウェアRのパッケージにしたもの |
・ 時系列解析 | 情報・システム研究機構の融合研究「機能と帰納」研究成果の一つ |
JASP<ジャスプ> Javaによる実験的汎用統計解析システム | ・ 探索的データ解析 ・ データマイニング ・ 統計科学の新手法の開 発 | 徳島文理大学及び東京情報大学との共同研究 |
Jasplot<ジャスプロット> 対話的統計グラフのJavaライブラリ | ・ 新しい統計グラフの開発 | 徳島文理大学及び東京情報大学との共同研究 |
TIMSACシリーズの一部のプログラムのソースコードをFORTRAN77に完全準拠するように改編作業は終了し,Windows上のQuick_Winアプリケーション用,Linux用を配布している。またR上でTIMSACを動作できるようにしており,同時に,Rの一部の並列化をスーパーコンピュータ上で行い,高速計算可能にしている。WebCATDAPやCATDAP for Windowsも配布している。その他のソフトウェアについてもユーザーインターフェースの改良などを行い,より使いやすくする計画がある。また,最新の統計科学の理論的成果を実用化するための新しいプログラムの開発も行っている。プログラム提供については統計科学技術センター(e-mail:kks, FAX:03-5421-8796)にお問い合わせいただきたい。なお,下記の図はデータ科学研究系の佐藤整尚准教授が公開しているWebDECOMPは季節調整や時系列解析をWWW上で行うことができる。Excelにアドイン可能なDecompも開発されている。