第67回統計的機械学習セミナー / The 67th Statistical Machine Learning Seminar (Hybrid)
- 【Date & Time】
- July 17th (Thursday), 2025 10:00 - 11:30
Admission Free
- 【Place】
- Seminar Room 5 (D313・D314), The Institute of Statistical Mathamatics
Hybrid :
Please register at the following link and get a Zoom link, if you join by Zoom
https://forms.gle/FDWyCMGzChNu1rqZ7
【Speaker】
水野 忠快
(東京大学大学院薬学系研究科 分子薬物動態学教室 統計数理研究所 統計思考院)
【Title】
深層機械翻訳モデルによる化合物構造の表現学習研究
【Abstract】
近年, 深層学習技術は分野横断的な広がりを見せている。援用先の多くでは, 元分野で確立されたアーキテクチャをいかに対象ドメインへ適用し, そこに内在する知見(帰納バイアス)を効果的に組み込むかが鍵となっている。ケモインフォマティクスは, そうした流れの中でも比較的早くから深層学習との融合が進んだ分野であり, 化合物構造をグラフとして表現するグラフニューラルネットワーク(GNN)に加えて, 近年では言語モデルの応用も注目されている。特に, 化合物構造をSMILESなどの文字列表現に変換し, 自然言語処理技術を応用する「化学言語モデル」は, 構造データに対する自己教師あり学習を可能にし, 実験データの制約を受けずに構造の潜在表現を学習できる点で強みとされている。
一方, 自然言語と分子構造の文字列表現は, 表面的な類似(系列データとしての特徴)とは裏腹に, その背後にある確率的な依存構造や文字列生成の規則は大きく異なる。したがって, 自然言語で有効であったモデル設計や学習戦略が, そのまま化合物構造に適用できるとは限らない。この差異を理解し, 適切に対応することは, 化学言語モデルの信頼性や解釈性を高める上で極めて重要である。本発表では, Transformerベースの化学言語モデルに着目し, 機械翻訳に類似したアーキテクチャの内部において, 化合物構造情報がどのように表現・処理されているのかを探求する我々の取り組みを紹介する。