コラム

動的治療計画と統計学の潮流

江口 真透(数理・推論研究系)

 研究者とは常に何かしら新しいことを探し求める動物であります。私は平成7年4月にこの研究所へ移り、25年後の令和2年の3月に定年退職となります。今から3年前のことですが、「統計で面白い話題は未だ残ってるの?」という素朴な疑問を研究仲間と話し合っていました。退職の間際になり、まだそんなことを考えているのかと恥ずかしい限りですが冒頭の愚かな格言が私の言い訳となります。

 その頃、AlphaGoが発表され、囲碁の元世界チャンピオンとの対戦に圧勝したニュースや人工知能の描く明るい未来像と対照的に心臓移植の優先順位を決めるために深層学習が出した低いスコアーに苦悶する患者の顔が映りだされたテレビ番組が印象的でした。深層学習が出した説明のない決定を受け入れるしかないのでしょうか。ニューラルネットの非凸最適化の世界へ舞い戻ったような複雑な気分が支配していました。そんなざわざわとした気持ちで統計学への自分の方向を見失いかけた頃のことでした。たまたま見つけた動的治療計画(Dynamic Treatment Regime、DTR)の論文にあった発想に共感して有志で基本文献の読書会をしました。

 従来の医療統計では治療を一つの介入と考えて介入の効果をできるだけ不偏に推測することが大きな目的となります。DTRでは患者の状態を観測して患者の個人ごとのアウトカム(治療効果、生存時間など)を最適にする治療を選ぶことが目的となります。治療を介入として捉えるのではなく、一人一人に対してより良い選択をすべきものであるとして積極的に担当医師の診療をサポートする点に新しい視点があります。DTRでは患者個人の初診からの全ての履歴を一つの軌跡として考え、その軌跡データを基にして、個人の最適な多重ステージの治療決定を求めることが目標となります。こういった形式は統計学では活発には議論されてなかったようですが機械学習では強化学習の枠組みで研究されています。

 強化学習は時間に支配された状態・行動・報酬の3つの要素からなるプロセスを考えます。それぞれの時点で、ある行動を取ると状態が変化し、その変化によって報酬が得られるとします。その行動をそれまでの状態の観測に基づき将来の報酬を最大にする多重決定問題として定式化されます。DTRも大筋ではこの枠組みで考えることができますが異なる点もあります。強化学習の多くはプロセスにマルコフ性が仮定されていますがDTRではより良い治療の選択のためには初診からすべての治療と中間共変量履歴が必要となります。実際、診療の現場では初診からすべての診察結果がカルテに記録され、そのカルテから総合的な医師の判断によって次なる治療が決められます。このようにDTRに基づく治療の決定も全履歴の関数として下図のように定式化されます。報酬はアウトカムになりますが、その条件付き平均(価値関数)を不偏に推測することがキーとなります。この点は既存の医療統計と同様に重要な課題となりますが多重ステージにおいてステージごとに議論するところが大きく違う点になります。履歴に依存した多重逐次ランダム化はより良い治療計画には重要な点となりますがより深い研究が必要だと思っています。

 今後、DTRがどのように発展するか興味深いところです。医療統計に限らず、ファイナンスにおける経済活動の最適な計画、生態学における生物多様性の保存のための方策決定など適用範囲は開かれ多くの社会の問題解決にも適用できるように思われます。データの高度化により、異質なデータの統合やグローバルなデータの獲得が容易くなった現代において単一のステージの推論ではなく、時間によって支配されている多重なステージの推論を考える要請が高くなるでしょう。このように統計学の研究方向も静的な予測・検証から動的な決定問題へと流れが変わるような気がするこの頃です。

動的治療トラジェクトリー

ページトップへ