統計的パターン認識の方法について−総合的な理解を目指して−, 江口 真透、小森 理, 10月25日, 統計数理研究所.
Projective entropy and maximum Tsallis entropy
distributions, Workshop on Information Geometry, Riken
Institute, August, 2011
Beyond maximum likelihood−towards new data
analyzer−, The Applied Statistics Workshop, University
of Tokyo, October, 2010.
Information geometry, statistics, and machine
learning, Mathematical Sciences and Their Applications,
Kamisuwa, September, 2010
U-entropy and maximum entropy model, Information Geometry and its Applications
III, Leipzig, Germany, August, 2010.
Boosting finite mixture model, International Conference on Robust Statistics
2010, Prague, Czech Republic. July, 2010.
Tutorial Workshop on Learning with Information
Divergence Geometry, Shinto Eguchi and Osamu Komori, April 24-25,
2010, TIMS, National Taiwan University
Information divergence class and robust statistical
methods I
Information divergence class
and robust statistical
methods II
Information geometry on model
uncertainty
Boosting leaning algorithm and
U-loss functions
I
Boosting leaning algorithm and
U-loss functions
II
Pattern recognition from genome and omics
data
[slide]
Workshop on Geometric and Algebraic Statistics (WoGAS), 13th July 2009 at The Open University,
Milton Keynes
Maximizing t-values for all functions of
a feature vector
Institute of Mathematical statistics Asia
Pacific Rim Meeting (ims-APRM), Seoul, 28 June-2 July
Sparse weak learner boosting for high-dimensional
data
Mari Pritchard and Shinto Eguchi
AUC maximization in credit scoring
Kakeru Miura, Satoshi Yamashita and Shinto
Eguchi
Maximization of the partial area under the
ROC curve using a boosting technique
Osamu Komori and Shinto Eguchi
Boosting true positive and false positive
rates for pattern recognition
Shinto Eguchi and Osamu Komori
Kyoto RIMS workshop on `Mathematical Aspects of Generalized Entropies
and their Applications', July 7-9, 2009 held at Kyoto TERRSA
Projective Tsallis Entropy and its Application
to Robust Statistics
The Fifth Statistics and Machine Learning
Workshop, 27-28 April, 2009 at National Cheng Kung
University, Tainan
Information Divergence Geometry and its application
to machine learning
Workshop on `Information Geometry and decision geometry', 24 March, 2009, Lecture room at ISM
Information Divergence Geometry on Reproducing
Kernel Hilbert Space
数理研短期共同研究集会 「離散力学系の分子細胞生物学への応用数理」 2009年1月5日(月)〜9日(金),
京都大学理学部3号館110号講義室
1月8日(木曜日)
「タンパク質構造と進化と情報幾何」数学から
べき関数が連想する統計学 [pdf] 科研費シンポジウム「Recent Advances in
Statistical Inference - in Honor of Professor
Masafumi Akahira」, 筑波大学大学会館国際会議室,
2008年12月15日(月)〜12月17日(水)
「バイオインフォマティクスにおける統計的課題について」 [pdf] シンポジウム「高度情報抽出のための統計理論・方法論とその応用」,九州大学附属図書館視聴覚ホール(九州大学箱崎キャンパス),
平成20年11月20日(木)〜11月22日(土)
Information divergence geometry and its application
to machine learning (invited talk) The 1st MSJ-SI, The Mathematical Society of Japan, Seasonal
Institute ``Probabilistic Approach to Geometry'',
July 28 --- August 8, 2008, Kyoto University,
Kyoto, Japan
[abstract]
観察データの推測の限界−揺らぎモデルアプローチ−[pdf].科研費研究集会,2008年1月16日-18日,広島大学理学部
Boosting methods for association studies
in bioinformatics. Invited talk, International Conference on Multiple Decision
Theory, Statistical Inference and Applications, タイペイ, 2007年12月28-30日
台湾中央研究院統計科学研究所(Institute of
Statistical Sciences, Academia Sinica, Taiwan)(ISSAS)と統計数理研究所の第1回共同研究集会,
2007年11月29,30日, 統計数理研究所講堂
Boosting learning approach to association
studies in bioinformatics
This talk overviews various boost learning
algorithms for discovering associations between
phenotypes and genomic/proteomic data including
protein, gene expressions and single nucleotide
polymorphisms. The problem of high-dimensional
data and small sample is commonly faced in
analyzing observations from biotechnological
experiments. Several approaches to such over-expressed
data in boosting and other classification
methods for challenging the problem are discussed.
The 4th International Symposium on Ubiquitous
Knowledge Network Environment
March 5-7, 2007 Sapporo Convention
Center,
Sapporo, Japan
Statistical learning theory and
bioinformatics
Institute of Statistical Science, Academica
Sinica, December 19, 2006
Statistical pattern recognition and genome
data analysis
Taipei International Statistical Workshop,
Taipei, 2006, December 13-15, 2006
Importance sampling using estimated sampler.
2006年度統計数理研究所公開講座
統計数理要論 「統計的パタン認識」, 11月17日(金曜日),2006年
講演資料
2nd International Symposium on Information
Geometry and its Applications, December 12-16, 2005
Sanjo Conference Hall, University of Tokyo
Tublar modelling approach to statistical
method for observational studies [abst]
Local Parametric Modeling
via U-Divergence.
Invited Program Meeting 22. Organizer: B.
U. Park: Discussant: Irene Gijbels,
55th Session of International Statistical
Institute at Sydney, April, 2005. [pdf]
統計数理セミナー 平成17年(2005年)2月9日水曜日 1:30-2:30
" モデル局所不確定性と不完全データバイアス " [ppt]
Read before Royal Statistical Society Ordinary Meeting on Wednesday, February 2nd, 2005,
Professor J. T. Kent in the chair.
Local Model Uncertainty and Incomplete-data
Bias. J. Copas and S. Eguchi. [pdf]
2004年度統計数理研究所公開講座
統計数理要論 「機械学習の最近の話題」, 11月24日―26日,2004年
[担当:池田思朗、江口真透、福水健次]
ブースト学習: 統計的パタン認識の手法であるアダブーストを概説し、遺伝子発現、
リモートセンシング・データなどの適用例の紹介をした.[pdf]
Workshop on Statistical Genetics at ISM,
9 November, 2004
A combining approach to statistical methods
for p >> n problems
abstract: The problem of `p >> n' has recently been referred to challenging
problems in genomic analyses in a developing
process of bioinformatics. Here p denotes the data dimension and n denotes the number of observations. Typically
in DNA microalley data the number p is increasing according to the technological
developments; the number n is still constant because of restrictions
for hospital institutions or the experimental
projects. However one can naturally consider
to combine several data sets of seize p and n with p >> n if one chooses common data dimensions or
common test genes. Symbolically (p,n_1) +…+ (p,n_k) = (p, n), where n = n_1+ … +n_k. In my talk several approaches from ideas
on meta analysis will be discussed and proposed.
In particular I focus on the bias arising
when one bridges multiple heterogeneous sets
of microalley data.
ISMオープンフォーラム第2シリーズ 統計科学とゲノム情報
2004年10月29日金曜日, 統計数理研究所講堂
ゲノム多様性解析のための新しい統計的方法
Special Symposium on “Geometric Modeling
of Psychological Space”, July 29-31, 2004.
In Annual Meeting of Society for Mathematical
Psychology,
Dual Scaling and U-divergence Geometry [abst] [pdf]
U-divergence geometry and its application [pdf]
2004年6月17日(木) 東京大学数理科学研究科
題目: 「情報幾何と統計的パタン認識」
概要: 統計的判別解析,統計的パタン認識の問題を話題提供する.最初に確率密度関数全体の空間にU-ダイバージェンスのクラスを提案する.このU-ダイバージェンスが連想する双対リーマン幾何を提出し,平坦なU-モデルの上への射影がピタゴラス定理を導くことを示す.統計的パタン認識の問題に,この幾何を適用し,U-ブースト・アルゴリズムを提案する.この学習アルゴリズムは,ステップ毎にU-モデルを1
次元だけ拡大させて,その上に逐次射影を実行していることが明らかにする.特に確率制約を外した空間で考察することによって,人工知能の分野で提案されたアダブーストの統計的性質を特徴付ける.これはフィッシャー一致性の定義を統計的パタン認識の問題から自然に作られる同値関係の上に拡張することが鍵となる.最後に
ROC曲線の問題,数理心理学との関連,マイクロアレイによる遺伝子発現のデータなどの解析例を通して今後の問題を指摘する.
参考文献:
情報幾何と統計的パタン認識, 日本数学会「数学」56号,
2004(印刷中).
http://www.ism.ac.jp/~eguchi/pdf/ronsetsu.pdf
2004年2月20日(金) 統計科学セミナー ,九州大学数理学府
遺伝子発現データの解析の 統計的問題点と今後の展望
江口 真透,統計数理研,総研大統計科学
ISMセミナー@ ISM 平成15年 (2003年)
1月15日(水)
観察研究のための統計推測 - general misspecification
model approach -
スライド [ppt], 配布資料[pdf]
2002年11月27日(水)〜 29日(金)
公開講座・統計数理要論B ・統計数理研究所
担当 [江口真透,栗木哲,南美穂子]
統計学・ニューラルネットワーク・学習 ― その最前線
part 2 ―
11月27日(水) ブースティング, 江口講師 [pdf]
2002年度統計関連学会連合大会 @ 明星大学大学 (2002年 9月7日〜10日)
Model is wrong?! slide [ppt], handout [pdf]
Information geometry and its applications
Pescara - 1-5 July 2002
July 1, 11.50-12.40
S.Eguchi - Information Geometry of Bregman Divergences
The class of Bregman divergences and the
application to statistical methods including
PCA, ICA, Gaussian mixture and so forth have
been proposed. It is shown that this class
offers a special structure on the information
geometry, which is in contrast with that
associated with the alpha divergences. In
the dual connections one is always the mixture
connection in the class, which enables us
to getting easily the empirical form of the
divergence. Thus the objective function to
be optimised becomes a linear functional
of the empirical distribution. The structure
determines the statistical performance of
the proposed methods. We also apply this
discussion to classification problems. By
using the dual form for the optimisation
problem to the empirical Bregman distance
over a linear combination of weak learners
we propose the class of U-boost including
AdaBoost, and investigate the performance
structure from the statistical point of view.
[handout pdf] 8 pages
2002 SRCCS Internatinal Statistical Workshop, Seoul National University 19-20 June, 2002
U-Boosting method and information geometry
[handout, pdf], [Draft, pdf 16page]
5月25日(土曜日)2002年
応用統計学会 第24回 シンポジウムプログラム
−多変量解析の新展開− 主催:応用統計学会 特別講演 II 13:30 - 14:30
座長 岩崎 学(成蹊大学)
-
- 統計的識別の方法について − ロジスティック判別からアダブーストまで
−
[配布資料, pdf] [原稿, pdf 12-page]
Department of Statistics, Open University,
18th March, 2002
Title: Robustifing Maximum Likelihood Estimation
by Psi-divergence
Abstract:
A class of $\Psi$-divergence functionals
over the space of probability densities is
defined on the analogy of the quasi-likelihood
function for positive response variables.
The estimator defined as a minimiser
of the $\Psi$-divergence functional based
on data is suggested and is shown to be a
robustified maximum likelihood estimator
under some simple conditions on the $\Psi$.
When $\Psi$ is an identity function,
the $\Psi$-divergence reduces to the Kullback-Leibler
divergence and the new estimator reduces
to the usual maximum likelihood estimator.
The power transformation of
densities rather than logarithm leads to
the power divergence proposed by Jones, Hjort,
Harris and Basu (2001). Once a probability
model and a generic function are chosen,
one can automatically construct such a robustified
estimator. Several informative examples are
provided, and relationships with existing
robust estimation methods are discussed.
The geometry associated with $Psi$-divergence
is elucidted in the context of dual Riemannian
geometry.
RIKEN BSI FORUM『情報幾何ワークショップ』2月19日〜21日,2002年
選択的観測における統計推測のための情報幾何[ppt](ハンドアウト[pdf])
科学研究費「統計学における理論と応用の総合的研究」[基盤研究(A)]
「高次元データ解析の研究」研究集会@広島大学理学部,1月10-11日,2002年
ロジスティック判別とその最近の発展 [ppt] (ハンドアウト,[pdf])
「因果推論のための統計モデルとその推測法」京都大医学部,12月7日2001年
Sensitivity method for observational comparison
逸見昌之(総研大),江口真透(統計数理研) [ppt]
シンポジウム「非線形モデリングと現象解析」
(研究分担者:小西貞則)2001年11.28‐29@九州大学国際ホール
Ψ最尤法とその適応−PCA, ICA, Gaussian mixture
− [dvi],[ppt]
StatSeminor, Department of Statistics, Seoul
National University, 19.3, 2001
Local likelihood method and asymptotoc theory
for a bridge between parametric and nonparametric
inference [ppt]
統計数理セミナー2001 1月17日(水)
判別関数の情報幾何
− Logistic regression, AdaBoost, area under
the ROC curve,…−
[ppt]
公開講座2000,要論B「統計学・ニューラルネットワーク・学習,その最前線」
6.混合分布 [ppt] [pdf]
7.サポートベクターマシンと ロジスティック判別 [ppt] [pdf]
Bernoulli-RIKEN BSI 2000 Symposium on Neural
Networks and Learning, Oct, 2000
Title:
Information geometry of self-organizing maximum
likelihood
Abstract:
A new class of divergence functionals, including
Kullback-Leibler divergence, over probability
densities is proposed by generative functions
psi(z). The idea is closely related with
that of deviance in generalized linear regression.
The maximum psi-likelihood estimator is defined
by minimizing a psi-divergence functional
based on data. If psi is an identity function,
or psi(z) = z, then it reduces to the relation
of the usual maximum likelihood estimator
and the Kulback-Leibler divergence. From
an information-geometric point of view it
is shown that a psi-divergence leads to a
simple geometry and that a simple condition
for psi(z) is given to guarantee the robustness
property. A typical example of psi(z) to
guarantee robustness is a log-sigmoidal function.
In principle the psi-likelihood method can
be applied for almost all models in addition
to the psi-information criterion. I focus
on logistic regression classifications and
principal/independent component analyses
with a few simulation study. (This
is joint work with Yutaka Kano of Graduate
School of Human Sciences, Osaka University)
[ppt]
第23回 日本神経科学会 9月、2000年
混合分布モデルの罰則付き最尤法による量子解析
吉岡 耕一 (東京医科歯科・医学部) 江口 真透
(統計数理研, 総合研究大)
従来のシナプス伝達の量子解析の方法として、伝達物質の放出過程に二項分布やポアソン分布(構造モデルと呼ぶ)を仮定して、データから分布のパラメタを推定する方法がある。しかし、この方法には、中枢の伝達ではそれらの分布が必ずしも当てはまらないという問題がある。別の方法として、混合分布モデルによる推定法がある。これは、シナプス反応の密度分布が正規分布などの基本分布に従う成分の混合からなると仮定して各成分を推定する方法である。しかし、従来の制約のない混合分布モデルの推定法には、推定の不安定性や成分の非識別性などの問題がある。そこで、混合分布モデルの最尤法による推定に、構造モデルからのずれを罰則として付加する方法を考案した。この方法を、シミュレーションによる解析および、ラット小脳でのGABA作動性シナプス伝達のデータに対して適用したところ、各量子成分を適切に推定できる、優れた方法であることが示唆された。
日経2000 夢の技術展 8月、2000年
脳の中の通信ネットワークを探れ
日本統計学会68大会 7月、2000年
生存解析におけるレイト・エントリー・バイアスのモデリング
松浦 正明 (広島大学原医研), 江口 真透 (統計数理研究所,総合研究大学院)
生存時間解析においては、各対象者の時間原点は明確に定義される必要があり、また全ての対象者がこの時間原点において比較可能でなければならない。解析で使用される時間尺度は、研究の目的に応じて実際に記録された時間から再構成される。その際、対象者が観察下におかれた時間S
(エントリータイム、登録時間)は、時間原点よりも後になる事がある(i.e.,
S > 0)。疫学研究では、このような対象者はdelayed
entry 又はlate entry として呼ばれ、目的事象の死亡時刻とエントリータイムが独立ならば、統計的にはleft
truncation の問題として対処可能である(Cox
and Oakes, 1984)。従来のデータ解析ではこの独立性をチェックする事無く、数学的要請により常時独立性を仮定した分析が行われてきた。しかし、例えばリスクの高い者だけが遅く登録されている(又はその逆)場合もあり、登録された時間と死亡時刻が関連している可能性も考えられる。このような状況の場合、従来の仮定の下では偏った推定値を与えてしまう。そこで本研究では、レイト・エントリー・バイアスを検出するための方法論を提案し、数値実験結果および実際にdelayed
entry を含む疫学データに応用した結果についても報告する。
[pdf]
日本統計学会68大会
7月、2000年
混合分布モデルの罰則付き最尤推測
--- 神経生理の量子仮説への適用 ---
江口
真透 (統計数理研, 総合研究大) 吉岡 耕一 (東京医科歯科・医学部)
ランダム混合分布モデルにおいて,フルモデルの非正則性と構造モデルの非柔軟性という互いに相容れない2つの欠点を補うために罰則つき最尤法を考察した.
罰則関数は仮想的な層別可能モデル上でのKullbackダイバージェンスの採用した.
チューニングパラメータは1 に近づくにつれて,フルモデルの尤度関数の過剰な振る舞いを構造モデルの方向へ抑制する代わりにデータ記述能力が減じる,0
に近づくにつれて記述能力が増す代わりに抑制が解かれ尤度関数が暴れる.
この相克する両面を緩和するチューニングパラメータの選択が提案された.
[dvi] [pdf]
統計数理研究所共同研究集会
「ノンパラメトリック・ファンクショナル推定の理論と応用」
平成12年3月23日(木),24日(金)統計数理研究所
江口真透 (統計数理研究所),吉岡耕一 (東京医科歯科大・医)
"Density Estimation in Finite Mixture Models" [ppt]
Abstract:
A random mixture model adaptively gives flexible
shapes of probability density function over
multimodality and non-gaussianity. A quick
review for recent developments in statistical
and neural networks literature is made. We
focus on a problem that the likelihood inference
often fails to perform a proper decision
in the finite mixture model of which dimension
is saturated. A simple way to relax the overperformance
of the full likelihood with a shirinkage
into a structured submodel is given in a
Bayesian argument. As a special interest
we will apply our method to the analysis
for evoked synaptic responses with amplitude
fluctuations.
Common room with statisticians and neural
networkers
-- Near-parametric approach to probablistic
modeling -- [dvi] [pdf]
1999年情報論的学習理論ワークショップ(IBIS'99)
日時:1999年8月27日
Abstract:
This talk discusses common interests shared
with statisticians and neural networkers
by focusing on near-parametric model building.
This modeling is defined by a tubular neighborhood
of a given parametric model, which covers
possibly common situations where we could
not give complete specification by the parametric
model. We explore statistical procedures
including density estimation, regression
function estimation and principal component
analysis (PCA), where the true probabilistic
mechanism comes from not the parametric model
but a near-parametric model. We first discuss
the local likelihood approach to density
estimation and regression function by mounting
a kernel function into the log-likelihood
function. Secondly the self-organizing PCA
is shown to be equivalent to the conditional
inference under the near-parametric model,
which is called proportional Gaussian distribution.
Our interest is focused on the conditional
distribution of a latent variable y given
x by defining to be binary, so that the self-organizing
rule has a probabilistic interpretation beyond
the conventional robustification arguments.
Key words : density estimation, local likelihood, regression
function, self-organizing rule.
Information geometry for observational bias, [dvi] [pdf] 日本統計学会
日時:1999年7月31日
共同研究会「情報幾何の新しい展開」 [dvi] [pdf]
日時:1999年2月5日(金)
"Information geometry for observational bias"
公開講座 [dvi] [pdf]
日時:1998年11月25日(水)
『情報幾何の基礎 I』
1998年度 統計数理研究所 公開講座 要論B 「基礎からの情報幾何」
講 師:江口真透・栗木哲・駒木文保(統計数理研究所)
川鍋一晃(東京大学) 内 容:情報幾何の方法論は統計科学をはじめ、様々な数理科学の分野で基本的道具として確立されつつあります。このコースでは大学学部生初年級の知識を仮定した下で、情報幾何のABCから統計学に関連した内容について講義します。情報幾何の基礎アイテムとして、情報計量、双対線形接続、第二基本形式、可積分性、ポテンシャル関数、勾配ベクトル場、指数型分布族の双対平坦性、EMアルゴリズ
ムの双対射影について詳解します。
次に統計理論、ニューラルネット論の話題から
●ベイズ予測分布
●推定方程式の無限次元情報幾何
●確率場の最大値の分布
●概パラメトリック推測
●自己組織化による主成分分析
●学習理論の情報幾何
について紹介します。
統計数理セミナー[dvi] [pdf]
1998年10月28日(水)
Statistical Methods via Self-Organizing Rule
Statistical Mathematics Seminar
Date: Wed 28 October,1998 Time: 13:30 - 14:30
Place: Auditorium, Institute of Statistical
Mathematics
Title: Statistical Methods via Self-Organizing
Rule
Speaker: Shinto Eguchi, ISM, Tokyo
話題は『自己組織化法則による統計的方法論』です.最近,ニューラルネットで盛んになっている自己組織化ルールの統計学との関連について紹介します.
Abstract:
A diversity of artificial neural computational
algorithms has been proposed and closely
related with statistical methodology. First
I will introduce a principal component analysis
(pca) by self-organizing rule. The characteristic
is to give a conditinal probability that
each observation is not an outlier given
data; in the classical pca the probability
can be interpreted as constantly 1. By sequentially
weighting the sample covariance matrix in
terms of the probabilities the proposed k-principal
vectors are defined by the first k eigenvectors
of the matrix. In effect a feasible algorithm
for obtaining the k-principal subspace is
given by iteratively reweighting the matrix,
of which convergence is shown to be global
and rapid for practical situations. An open
problem for extensions to a functional pca,
nolinear pca and independent component analisis
will be discussed. Secondly the approach
will be tried to extend to various statistical
applications on the basis of a new definition
of a self-organised vesion of Kullback-Leibler
divergence, which could be basically applied
to maximu likelihood method.
22nd European Meeting of Statisticians, Vilnius,
July, 1998.
Near Parametric Discrimination and ROC Curves
J. Copas and S. Eguchi [pdf]
COE中間発表会 [dvi] [pdf]
1998年3月16日(金)
Information Geometry of Near-parametric Inference
文部省科学研究費によるシンポジウム [dvi] [pdf]
「統計的推論のフレームワークの基礎研究」
日時:平成9年10月28日(火)−29日(水)
場所:筑波大学東京地区
Neyman-Pearsonの補題から導かれる判別解析
統計学セミナー(第37回) [dvi] [pdf]
日時 1998年 1月13日(火) 13時10分〜15時,@東京大学経済学部
選択バイアスの感度解析
概要:
観測データの解析においてランダム性の仮定の問題が実験データに比べてしばしば深刻になる。その仮定の乖離から生じる観測のバイアスについて感度分析の一般アプローチを行う。この方法はランダム性の仮定の下で実行された統計推測が観測バイアスの発生した状況からどのくらい影響を受けるかをズレの全ての方向から求める手法である。
特長は選択バイアスのモデル化が、誤った場合でも影響がロバストに把握できる点にある。一方で選択バイアスを推定することが危険であることを報告する。その情報幾何についても考察する。最後に適用例を紹介する。
Near-Parametric Inference [dvi] [pdf]
Information Geometry, organized by C. Bishop
& S. Amari at Newton Institute of Mathematical
Sciences,Cambridge University on 8-14 December,
1997
以前の主な口頭発表
情報幾何の新展開,日本数学会年会, 信州大学, 1997. (企画特別講演)
Information Geometry on MCMC methods, Workshop on Neural Network at Aston University,
1996.
Harmonic prior density function and the improvement
of the MLE, Statistical Seminor at Imperial College,
London, 1994.
Improvement on the relative entropy risk
of the MLE by gradient, (Invited talk) Prob. Stat. '94, Smolenice
Castle, Slovakia, 1994.
Further discussion on second-order efficiency
for estimation, Seventh International Conference on Multivariate
Analysis, University of Barcelona, 1992.
Geometry of contrast functions and Bartlett
adjustment, Workshop on Differential Geometry
of Statistics and Information, University of Tokyo, 1991.
コントラスト汎関数による統計的推定と検定
: 微分幾何的アプローチ, 日本数学会年会, 東京大学, 1987. (特別講演)
The conjugate metric structure of contrast
functionals, Conference on Differential Geometry in
Statistical Inference, Orgnized by David
Cox, Imperial College, London, 1984.
Model-fidelity of the maximum likelihood
estimator in a curved exponential family, Pacific Area Statistical Conference, Tokyo,
1982.
|