最近のトーク


統計的パターン認識の方法について−総合的な理解を目指して−, 江口 真透、小森 理, 10月25日, 統計数理研究所.



Projective entropy and maximum Tsallis entropy distributions, Workshop on Information Geometry, Riken Institute, August, 2011



Beyond maximum likelihood−towards new data analyzer−,
The Applied Statistics Workshop, University of Tokyo, October, 2010.



Information geometry, statistics, and machine learning,
Mathematical Sciences and Their Applications, Kamisuwa, September, 2010



U-entropy and maximum entropy model,
Information Geometry and its Applications III, Leipzig, Germany, August, 2010.



Boosting finite mixture model, International Conference on Robust Statistics 2010, Prague, Czech Republic. July, 2010.



Tutorial Workshop on Learning with Information Divergence Geometry, Shinto Eguchi and Osamu Komori, April 24-25, 2010, TIMS, National Taiwan University

Information divergence class and robust statistical methods I
Information divergence class and robust statistical methods II
Information geometry on model uncertainty
Boosting leaning algorithm and U-loss functions I
Boosting leaning algorithm and U-loss functions II
Pattern recognition from genome and omics data

[slide]



Workshop on Geometric and Algebraic Statistics (WoGAS), 13th July 2009 at The Open University, Milton Keynes
Maximizing t-values for all functions of a feature vector



Institute of Mathematical statistics Asia Pacific Rim Meeting (ims-APRM), Seoul, 28 June-2 July

Sparse weak learner boosting for high-dimensional data

Mari Pritchard and Shinto Eguchi

AUC maximization in credit scoring
Kakeru Miura, Satoshi Yamashita and Shinto Eguchi

Maximization of the partial area under the ROC curve using a boosting technique
Osamu Komori and Shinto Eguchi

Boosting true positive and false positive rates for pattern recognition
Shinto Eguchi and Osamu Komori



Kyoto RIMS workshop on `Mathematical Aspects of Generalized Entropies and their Applications', July 7-9, 2009 held at Kyoto TERRSA
Projective Tsallis Entropy and its Application to Robust Statistics



The Fifth Statistics and Machine Learning Workshop, 27-28 April, 2009 at National Cheng Kung University, Tainan
Information Divergence Geometry and its application to machine learning



Workshop on `Information Geometry and decision geometry', 24 March, 2009, Lecture room at ISM
Information Divergence Geometry on Reproducing Kernel Hilbert Space



数理研短期共同研究集会 「離散力学系の分子細胞生物学への応用数理」 2009年1月5日(月)〜9日(金), 京都大学理学部3号館110号講義室
1月8日(木曜日)
「タンパク質構造と進化と情報幾何」数学から



べき関数が連想する統計学 [pdf] 科研費シンポジウム「Recent Advances in Statistical Inference - in Honor of Professor Masafumi Akahira」, 筑波大学大学会館国際会議室, 2008年12月15日(月)〜12月17日(水)



バイオインフォマティクスにおける統計的課題について」 [pdf] シンポジウム「高度情報抽出のための統計理論・方法論とその応用」,九州大学附属図書館視聴覚ホール(九州大学箱崎キャンパス), 平成20年11月20日(木)〜11月22日(土)



Information divergence geometry and its application to machine learning (invited talk) The 1st MSJ-SI, The Mathematical Society of Japan, Seasonal Institute ``Probabilistic Approach to Geometry'', July 28 --- August 8, 2008, Kyoto University, Kyoto, Japan
[abstract]



観察データの推測の限界−揺らぎモデルアプローチ−[pdf].科研費研究集会,2008年1月16日-18日,広島大学理学部


Boosting methods for association studies in bioinformatics. Invited talk, International Conference on Multiple Decision Theory, Statistical Inference and Applications, タイペイ, 2007年12月28-30日



台湾中央研究院統計科学研究所(Institute of Statistical Sciences, Academia Sinica, Taiwan)(ISSAS)と統計数理研究所の第1回共同研究集会, 2007年11月29,30日, 統計数理研究所講堂

Boosting learning approach to association studies in bioinformatics

This talk overviews various boost learning algorithms for discovering associations between phenotypes and genomic/proteomic data including protein, gene expressions and single nucleotide polymorphisms. The problem of high-dimensional data and small sample is commonly faced in analyzing observations from biotechnological experiments. Several approaches to such over-expressed data in boosting and other classification methods for challenging the problem are discussed.




The 4th International Symposium on Ubiquitous Knowledge Network Environment
March 5-7, 2007 Sapporo Convention Center, Sapporo, Japan

Statistical learning theory and bioinformatics



Institute of Statistical Science, Academica Sinica, December 19, 2006

Statistical pattern recognition and genome data analysis



Taipei International Statistical Workshop, Taipei, 2006
, December 13-15, 2006

Importance sampling using estimated sampler.

2006年度統計数理研究所公開講座

統計数理要論 統計的パタン認識」, 11月17日(金曜日),2006年
講演資料
 


2nd International Symposium on Information Geometry and its Applications, December 12-16, 2005
Sanjo Conference Hall, University of Tokyo

Tublar modelling approach to statistical method for observational studies [abst]



Local Parametric Modeling via U-Divergence
.  

Invited Program Meeting 22. Organizer: B. U. Park: Discussant: Irene Gijbels,

55th Session of International Statistical Institute at Sydney, April, 2005. [pdf]


統計数理セミナー 平成17年(2005年)2月9日水曜日 1:30-2:30

" モデル局所不確定性と不完全データバイアス "   [ppt]


Read before Royal Statistical Society Ordinary Meeting on Wednesday, February 2nd, 2005,
Professor J. T. Kent in the chair.

Local Model Uncertainty and Incomplete-data Bias.  J. Copas and S. Eguchi. [pdf]


2004年度統計数理研究所公開講座

統計数理要論 機械学習の最近の話題」, 11月24日―26日,2004年

 [担当:池田思朗、江口真透、福水健次]

ブースト学習: 統計的パタン認識の手法であるアダブーストを概説し、遺伝子発現、
リモートセンシング・データなどの適用例の紹介をした.
[pdf]


Workshop on Statistical Genetics at ISM, 9 November, 2004

A combining approach to statistical methods for p >> n problems

abstract: The problem of `p >> n' has recently been referred to challenging problems in genomic analyses in a developing process of bioinformatics. Here p denotes the data dimension and n denotes the number of observations. Typically in DNA microalley data the number p is increasing according to the technological developments; the number n is still constant because of restrictions for hospital institutions or the experimental projects. However one can naturally consider to combine several data sets of seize p and n with p >> n if one chooses common data dimensions or common test genes. Symbolically (p,n_1) +…+ (p,n_k) = (p, n), where n = n_1+ … +n_k. In my talk several approaches from ideas on meta analysis will be discussed and proposed. In particular I focus on the bias arising when one bridges multiple heterogeneous sets of microalley data.


ISMオープンフォーラム第2シリーズ 統計科学とゲノム情報

2004年10月29日金曜日, 統計数理研究所講堂

ゲノム多様性解析のための新しい統計的方法 


Special Symposium on “Geometric Modeling of Psychological Space”, July 29-31, 2004.
 In Annual Meeting of Society for Mathematical Psychology,

Dual Scaling and U-divergence Geometry [abst] [pdf]

U-divergence geometry and its application [pdf]   


2004年6月17日(木)  東京大学数理科学研究科

題目: 「情報幾何と統計的パタン認識

概要: 統計的判別解析,統計的パタン認識の問題を話題提供する.最初に確率密度関数全体の空間にU-ダイバージェンスのクラスを提案する.このU-ダイバージェンスが連想する双対リーマン幾何を提出し,平坦なU-モデルの上への射影がピタゴラス定理を導くことを示す.統計的パタン認識の問題に,この幾何を適用し,U-ブースト・アルゴリズムを提案する.この学習アルゴリズムは,ステップ毎にU-モデルを1 次元だけ拡大させて,その上に逐次射影を実行していることが明らかにする.特に確率制約を外した空間で考察することによって,人工知能の分野で提案されたアダブーストの統計的性質を特徴付ける.これはフィッシャー一致性の定義を統計的パタン認識の問題から自然に作られる同値関係の上に拡張することが鍵となる.最後に ROC曲線の問題,数理心理学との関連,マイクロアレイによる遺伝子発現のデータなどの解析例を通して今後の問題を指摘する.

参考文献:
情報幾何と統計的パタン認識, 日本数学会「数学」56号, 2004(印刷中).
http://www.ism.ac.jp/~eguchi/pdf/ronsetsu.pdf


2004年2月20日(金) 統計科学セミナー ,九州大学数理学府

遺伝子発現データの解析の 統計的問題点と今後の展望

江口 真透,統計数理研,総研大統計科学


 ISMセミナー@ ISM 平成15年 (2003年) 1月15日(水)

観察研究のための統計推測 - general misspecification model approach -

スライド [ppt],   配布資料[pdf]



2002年11月27日(水)〜 29日(金)
公開講座・統計数理要論B ・統計数理研究所

担当 [江口真透,栗木哲,南美穂子]

統計学・ニューラルネットワーク・学習 ― その最前線 part 2 ―

11月27日(水) ブースティング, 江口講師 [pdf]


2002年度統計関連学会連合大会 @  明星大学大学 (2002年 9月7日〜10日)

Model is wrong?!    slide [ppt],  handout [pdf]


Information geometry and its applications
Pescara - 1-5 July 2002

July 1, 11.50-12.40


S.Eguchi - Information Geometry of Bregman Divergences

The class of Bregman divergences and the application to statistical methods including PCA, ICA, Gaussian mixture and so forth have been proposed. It is shown that this class offers a special structure on the information geometry, which is in contrast with that associated with the alpha divergences. In the dual connections one is always the mixture connection in the class, which enables us to getting easily the empirical form of the divergence. Thus the objective function to be optimised becomes a linear functional of the empirical distribution. The structure determines the statistical performance of the proposed methods. We also apply this discussion to classification problems. By using the dual form for the optimisation problem to the empirical Bregman distance over a linear combination of weak learners we propose the class of U-boost including AdaBoost, and investigate the performance structure from the statistical point of view.

[handout pdf] 8 pages


        2002 SRCCS Internatinal Statistical Workshop, Seoul National University 19-20 June, 2002

            U-Boosting method and information geometry  

                                                                                                       [handout, pdf],  [Draft, pdf 16page]



5月25日(土曜日)2002年
応用統計学会  第24回 シンポジウムプログラム
−多変量解析の新展開−  主催:応用統計学会  特別講演 II 13:30 - 14:30
座長 岩崎 学(成蹊大学)
 
統計的識別の方法について − ロジスティック判別からアダブーストまで −
[配布資料, pdf] [原稿, pdf 12-page]

Department of Statistics, Open University,  18th March, 2002

Title: Robustifing Maximum Likelihood Estimation by Psi-divergence

Abstract:
A class of $\Psi$-divergence functionals over the space of probability densities is defined on the analogy of the quasi-likelihood function for positive response variables.  The estimator defined as a minimiser of the $\Psi$-divergence functional based on data is suggested and is shown to be a robustified maximum likelihood estimator under some simple conditions on the $\Psi$.  When $\Psi$ is an identity function, the $\Psi$-divergence reduces to the Kullback-Leibler divergence and the new estimator reduces to the usual maximum likelihood estimator.    The power transformation of densities rather than logarithm leads to the power divergence proposed by Jones, Hjort, Harris and Basu (2001).   Once a probability model and a generic function are chosen, one can automatically construct such a robustified estimator. Several informative examples are provided, and relationships with existing robust estimation methods are discussed.   The geometry associated with $Psi$-divergence is elucidted in the context of dual Riemannian geometry.


RIKEN BSI FORUM『情報幾何ワークショップ』2月19日〜21日,2002年

選択的観測における統計推測のための情報幾何[ppt](ハンドアウト[pdf])


科学研究費「統計学における理論と応用の総合的研究」[基盤研究(A)]

高次元データ解析の研究」研究集会@広島大学理学部,1月10-11日,2002年

ロジスティック判別とその最近の発展     [ppt] (ハンドアウト,[pdf])


因果推論のための統計モデルとその推測法」京都大医学部,12月7日2001年

Sensitivity method for observational comparison

逸見昌之(総研大),江口真透(統計数理研)    [ppt]


シンポジウム「非線形モデリングと現象解析
(研究分担者:小西貞則)2001年11.28‐29@九州大学国際ホール

Ψ最尤法とその適応−PCA, ICA, Gaussian mixture −    [dvi],[ppt]


StatSeminor, Department of Statistics, Seoul National University, 19.3, 2001

Local likelihood method and asymptotoc theory for a bridge between parametric and nonparametric inference  [ppt]

統計数理セミナー2001  1月17日(水)

判別関数の情報幾何
Logistic regression, AdaBoost, area under the ROC curve,…
[ppt]

公開講座2000,要論B「統計学・ニューラルネットワーク・学習,その最前線

6.混合分布 [ppt] [pdf]
7.サポートベクターマシンと ロジスティック判別 [ppt]  [pdf]

Bernoulli-RIKEN BSI 2000 Symposium on Neural Networks and Learning, Oct, 2000

Title:

Information geometry of self-organizing maximum likelihood

Abstract:

A new class of divergence functionals, including Kullback-Leibler divergence, over probability densities is proposed by generative functions psi(z). The idea is closely related with that of deviance in generalized linear regression. The maximum psi-likelihood estimator is defined by minimizing a psi-divergence functional based on data. If psi is an identity function, or psi(z) = z, then it reduces to the relation of the usual maximum likelihood estimator and the Kulback-Leibler divergence. From an information-geometric point of view it is shown that a psi-divergence leads to a simple geometry and that a simple condition for psi(z) is given to guarantee the robustness property. A typical example of psi(z) to guarantee robustness is a log-sigmoidal function. In principle the psi-likelihood method can be applied for almost all models in addition to the psi-information criterion. I focus on logistic regression classifications and principal/independent component analyses with a few simulation study.  (This is joint work with Yutaka Kano of Graduate School of Human Sciences, Osaka University)
[ppt]

第23回 日本神経科学会 9月、2000年

混合分布モデルの罰則付き最尤法による量子解析
吉岡 耕一 (東京医科歯科・医学部) 江口 真透 (統計数理研, 総合研究大)

従来のシナプス伝達の量子解析の方法として、伝達物質の放出過程に二項分布やポアソン分布(構造モデルと呼ぶ)を仮定して、データから分布のパラメタを推定する方法がある。しかし、この方法には、中枢の伝達ではそれらの分布が必ずしも当てはまらないという問題がある。別の方法として、混合分布モデルによる推定法がある。これは、シナプス反応の密度分布が正規分布などの基本分布に従う成分の混合からなると仮定して各成分を推定する方法である。しかし、従来の制約のない混合分布モデルの推定法には、推定の不安定性や成分の非識別性などの問題がある。そこで、混合分布モデルの最尤法による推定に、構造モデルからのずれを罰則として付加する方法を考案した。この方法を、シミュレーションによる解析および、ラット小脳でのGABA作動性シナプス伝達のデータに対して適用したところ、各量子成分を適切に推定できる、優れた方法であることが示唆された。

日経2000 夢の技術展 8月、2000年

脳の中の通信ネットワークを探れ

日本統計学会68大会 7月、2000年

生存解析におけるレイト・エントリー・バイアスのモデリング
松浦 正明 (広島大学原医研), 江口 真透 (統計数理研究所,総合研究大学院)

生存時間解析においては、各対象者の時間原点は明確に定義される必要があり、また全ての対象者がこの時間原点において比較可能でなければならない。解析で使用される時間尺度は、研究の目的に応じて実際に記録された時間から再構成される。その際、対象者が観察下におかれた時間S (エントリータイム、登録時間)は、時間原点よりも後になる事がある(i.e., S > 0)。疫学研究では、このような対象者はdelayed entry 又はlate entry として呼ばれ、目的事象の死亡時刻とエントリータイムが独立ならば、統計的にはleft truncation の問題として対処可能である(Cox and Oakes, 1984)。従来のデータ解析ではこの独立性をチェックする事無く、数学的要請により常時独立性を仮定した分析が行われてきた。しかし、例えばリスクの高い者だけが遅く登録されている(又はその逆)場合もあり、登録された時間と死亡時刻が関連している可能性も考えられる。このような状況の場合、従来の仮定の下では偏った推定値を与えてしまう。そこで本研究では、レイト・エントリー・バイアスを検出するための方法論を提案し、数値実験結果および実際にdelayed entry を含む疫学データに応用した結果についても報告する。
[pdf]

          日本統計学会68大会 7月、2000年

        混合分布モデルの罰則付き最尤推測 --- 神経生理の量子仮説への適用 ---
           江口 真透 (統計数理研, 総合研究大) 吉岡 耕一 (東京医科歯科・医学部)

ランダム混合分布モデルにおいて,フルモデルの非正則性と構造モデルの非柔軟性という互いに相容れない2つの欠点を補うために罰則つき最尤法を考察した.
罰則関数は仮想的な層別可能モデル上でのKullbackダイバージェンスの採用した.
チューニングパラメータは1 に近づくにつれて,フルモデルの尤度関数の過剰な振る舞いを構造モデルの方向へ抑制する代わりにデータ記述能力が減じる,0 に近づくにつれて記述能力が増す代わりに抑制が解かれ尤度関数が暴れる.
この相克する両面を緩和するチューニングパラメータの選択が提案された.
[dvi] [pdf]

統計数理研究所共同研究集会

ノンパラメトリック・ファンクショナル推定の理論と応用

平成12年3月23日(木),24日(金)統計数理研究所
江口真透 (統計数理研究所),吉岡耕一 (東京医科歯科大・医)

"Density Estimation in Finite Mixture Models" [ppt]

Abstract:

A random mixture model adaptively gives flexible shapes of probability density function over multimodality and non-gaussianity. A quick review for recent developments in statistical and neural networks literature is made. We focus on a problem that the likelihood inference often fails to perform a proper decision in the finite mixture model of which dimension is saturated. A simple way to relax the overperformance of the full likelihood with a shirinkage into a structured submodel is given in a Bayesian argument. As a special interest we will apply our method to the analysis for evoked synaptic responses with amplitude fluctuations.

Common room with statisticians and neural networkers
-- Near-parametric approach to probablistic modeling -- [dvi] [pdf]

1999年情報論的学習理論ワークショップ(IBIS'99)
日時:1999年8月27日

Abstract:

This talk discusses common interests shared with statisticians and neural networkers by focusing on near-parametric model building. This modeling is defined by a tubular neighborhood of a given parametric model, which covers possibly common situations where we could not give complete specification by the parametric model. We explore statistical procedures including density estimation, regression function estimation and principal component analysis (PCA), where the true probabilistic mechanism comes from not the parametric model but a near-parametric model. We first discuss the local likelihood approach to density estimation and regression function by mounting a kernel function into the log-likelihood function. Secondly the self-organizing PCA is shown to be equivalent to the conditional inference under the near-parametric model, which is called proportional Gaussian distribution. Our interest is focused on the conditional distribution of a latent variable y given x by defining to be binary, so that the self-organizing rule has a probabilistic interpretation beyond the conventional robustification arguments.
Key words : density estimation, local likelihood, regression function, self-organizing rule.

Information geometry for observational bias, [dvi] [pdf] 日本統計学会

日時:1999年7月31日


共同研究会「情報幾何の新しい展開」 [dvi] [pdf]
日時:1999年2月5日(金)

"Information geometry for observational bias"


公開講座 [dvi] [pdf]

日時:1998年11月25日(水)

情報幾何の基礎 I』

1998年度 統計数理研究所 公開講座 要論B 「基礎からの情報幾何

講 師:江口真透・栗木哲・駒木文保(統計数理研究所) 川鍋一晃(東京大学)  内 容:情報幾何の方法論は統計科学をはじめ、様々な数理科学の分野で基本的道具として確立されつつあります。このコースでは大学学部生初年級の知識を仮定した下で、情報幾何のABCから統計学に関連した内容について講義します。情報幾何の基礎アイテムとして、情報計量、双対線形接続、第二基本形式、可積分性、ポテンシャル関数、勾配ベクトル場、指数型分布族の双対平坦性、EMアルゴリズ ムの双対射影について詳解します。           
次に統計理論、ニューラルネット論の話題から          
●ベイズ予測分布          
●推定方程式の無限次元情報幾何          
●確率場の最大値の分布          
●概パラメトリック推測          
●自己組織化による主成分分析          
●学習理論の情報幾何         
について紹介します。  


統計数理セミナー[dvi] [pdf]

1998年10月28日(水)

Statistical Methods via Self-Organizing Rule

Statistical Mathematics Seminar
Date: Wed 28 October,1998 Time: 13:30 - 14:30
Place: Auditorium, Institute of Statistical Mathematics
Title: Statistical Methods via Self-Organizing Rule
Speaker: Shinto Eguchi, ISM, Tokyo

話題は『自己組織化法則による統計的方法論』です.最近,ニューラルネットで盛んになっている自己組織化ルールの統計学との関連について紹介します.

Abstract:

A diversity of artificial neural computational algorithms has been proposed and closely related with statistical methodology. First I will introduce a principal component analysis (pca) by self-organizing rule. The characteristic is to give a conditinal probability that each observation is not an outlier given data; in the classical pca the probability can be interpreted as constantly 1. By sequentially weighting the sample covariance matrix in terms of the probabilities the proposed k-principal vectors are defined by the first k eigenvectors of the matrix. In effect a feasible algorithm for obtaining the k-principal subspace is given by iteratively reweighting the matrix, of which convergence is shown to be global and rapid for practical situations. An open problem for extensions to a functional pca, nolinear pca and independent component analisis will be discussed. Secondly the approach will be tried to extend to various statistical applications on the basis of a new definition of a self-organised vesion of Kullback-Leibler divergence, which could be basically applied to maximu likelihood method.

22nd European Meeting of Statisticians, Vilnius,  July,   1998.

Near Parametric Discrimination and ROC Curves

J. Copas and S. Eguchi [pdf]


COE中間発表会 [dvi] [pdf]

1998年3月16日(金)

Information Geometry of Near-parametric Inference


文部省科学研究費によるシンポジウム [dvi] [pdf]

「統計的推論のフレームワークの基礎研究」

日時:平成9年10月28日(火)−29日(水)
場所:筑波大学東京地区

Neyman-Pearsonの補題から導かれる判別解析


統計学セミナー(第37回) [dvi] [pdf]

日時 1998年 1月13日(火) 13時10分〜15時,@東京大学経済学部

選択バイアスの感度解析

概要:

観測データの解析においてランダム性の仮定の問題が実験データに比べてしばしば深刻になる。その仮定の乖離から生じる観測のバイアスについて感度分析の一般アプローチを行う。この方法はランダム性の仮定の下で実行された統計推測が観測バイアスの発生した状況からどのくらい影響を受けるかをズレの全ての方向から求める手法である。
特長は選択バイアスのモデル化が、誤った場合でも影響がロバストに把握できる点にある。一方で選択バイアスを推定することが危険であることを報告する。その情報幾何についても考察する。最後に適用例を紹介する。

Near-Parametric Inference [dvi] [pdf]

Information Geometry, organized by C. Bishop & S. Amari at Newton Institute of Mathematical Sciences,Cambridge University on 8-14 December, 1997


以前の主な口頭発表


情報幾何の新展開,日本数学会年会, 信州大学, 1997. (企画特別講演)

Information Geometry on MCMC methods, Workshop on Neural Network at Aston University, 1996.

Harmonic prior density function and the improvement of the MLE, Statistical Seminor at Imperial College, London, 1994.

Improvement on the relative entropy risk of the MLE by gradient, (Invited talk) Prob. Stat. '94, Smolenice Castle, Slovakia, 1994.

Further discussion on second-order efficiency for estimation, Seventh International Conference on Multivariate Analysis, University of Barcelona, 1992.

Geometry of contrast functions and Bartlett adjustment, Workshop on Differential Geometry of Statistics and Information, University of Tokyo, 1991.

コントラスト汎関数による統計的推定と検定 : 微分幾何的アプローチ, 日本数学会年会, 東京大学, 1987. (特別講演)

The conjugate metric structure of contrast functionals, Conference on Differential Geometry in Statistical Inference, Orgnized by David Cox, Imperial College, London, 1984.

Model-fidelity of the maximum likelihood estimator in a curved exponential family, Pacific Area Statistical Conference, Tokyo, 1982.