コラム

統計解析システムSとR私記

中野 純司(モデリング研究系)

 統計解析システムRは統計コミュニティの標準システムとなっており統計科学に多大な貢献をしています。多くの分野のデータ解析に利用されていますし、ビッグデータ解析のツールとしても注目されており商用のいわゆる“Analytics”ソフトウェアの中にもRを利用しているものがあります。Rはもともとアメリカのベル研究所で開発された統計解析システムSの互換ソフトウェアとして作成されました。したがってRの成功は(部分的には)Sの成功と言っても良いでしょう。S自身も統計コミュニティの中ではある程度の成功を収めましたが、歴史的にはRのオリジナルとして記憶されそうです。

 わたしが最初にSに出会ったのは、1987年9月に東京でISI総会が開かれたときに慶應義塾大学の渋谷政昭、柴田里程氏がSの作者であるJohn Chambers、Richard Becker氏を招聘し、統計数理研究所で講演会を開いたときでした。当時私は徳島大学に勤務しておりSが稼働するワークステーションを手に入れる事は不可能だと思っていたのですが、たまたま研究室でApolloワークステーションを買っても良いということになりました。Sは学術関係者にはソースコードで配布されていたので、ちょうどUNIXのソースコードをほしかった総合科学部の数学の先生たちと一緒に、非常に分厚い英語のATTとの契約書を全部日本語に翻訳して事務と交渉し、手に入れることができました。ただ、OSやコンパイラの知識不足でなかなか稼働させられずに困っていたところ、ちょうど同じシステムを所有していた山口大学の刈谷丈治氏と知り合うことができ、そのおかげでApolloワークステーションの上でSを動かすことができました。ヒストグラムが出たときの感動は忘れることができません。それを利用していくつかのデータ解析を行いましたが、しばらくして大学を移動したため、その後数年はSを利用することができませんでした。ただ、Sの商用化権を取った会社がS-PLUSという形でWindows上でも動くようにしたので、それを買って利用するようになりました。その頃、Rというものがあるということは聞いていましたが、手は出しませんでした。

 2002年にニュージーランドのオークランド大学統計学科を訪問する機会がありました。その時にRの作成者のひとりであるRoss Ihaka氏と彼の学生でRのグラフィックスライブラリGridの作者であるPaul Murrell氏とゆっくり話をする機会がありました。当時はまだRもそれほど有名ではなく、Rに対する大学の評価も高くなかったようで、かれらも苦労している様子でした。それで応援も兼ねて、日本でもRをより有名にしようとして2003年12月に二人を日本に招き研究会を行いました。ちょうどその頃、中間栄治氏がRの中で日本語を利用できるようにしたためもあり、筑波大学の岡田昌史氏が管理していたRjpWikiの上で疫学や生態学関係の方を中心にRが盛り上がっていました。わたしは自分たちで統計ソフトウェアを作っていたこともあり、Rに関しては好意的ではありましたが、あまりコミットする気はありませんでした。ただその後、いくつかの研究集会などでRのコアグループの人々と知り合う機会が多くあり、かれらの親切さ、寛大さ、情熱などに感銘を受けました。そこでコアグループやその周辺の人を毎年一人または二人日本に招き、最新の情報を教えてもらうとともにかれらに日本の情報を知ってもらうということを計画しました。2005年から始めたその研究集会はほぼ毎年続いており11、12月頃に2日ないし3日かけて開いています。そのうち1日は日本のRユーザーに発表してもらっています。これまでにほとんどのRコアグループのメンバーに参加してもらいました。例えば今年度はWindowsバージョン作成の中心となっているカナダのDuncan Murdock氏に来てもらい、かれの作成しているパッケージでの日本語利用などについて議論しました。

 Rは優れた開発環境を提供することにより世界中の統計研究者を巻き込んだ巨大なシステムになっています。典型的なボトムアップ体制のため今後どのようになるかはコアグループでさえわからないようです。わたしもボトムから少しでもSやRを生んだ計算機統計学に貢献していきたいと考えています。

Rの最初の正式版CD(コアメンバーのサイン入り)

ページトップへ