響き合う人とデータ―統数研プロジェクト紹介

第25回「産業界の課題を動機とする共同研究」

製造現場の「困った」を機械学習の新手法で解決

製造業の工場などの生産現場で、不良原因の特定や歩留まり向上にAIの活用が広まっている。しかし、日々計測されるデータには欠損が多い、現場の熟練技術者の知見が生かせず効率が悪いといった課題があった。株式会社東芝と統計数理研究所は共同研究により、これらを解決するアルゴリズムを開発。論文として公開することで、世界の製造業の生産性向上に貢献している。

欠損率の高いデータから不具合の要因を高精度に特定

▲藤澤洋徳教授 ▲西川武一郎氏(東芝研究開発センター) ▲田正彬氏(東芝研究開発センター)

「統計は『使ってなんぼ』。われわれ研究者は、論文になりにくいテーマには触手が動きにくい傾向がありますが、今回は現場のニーズといきいきとしたデータが目の前に現れたことで、モチベーションが上がりました」。統計数理研究所の藤澤洋徳教授は東芝との共同研究について、そう述べる。

きっかけは、IBISワークショップで、東芝研究開発センターの西川武一郎技監が「機械学習によって、工場の歩留まりを向上させられないか」と藤澤に相談を持ちかけたことだった。その後、東芝からは田正彬主務研究員が参画し、2016年秋に正式に共同研究がスタートした。

工場では、製造物の品質値や加工条件、設備の温度や圧力などの製造プロセスや設備稼働に関するデータが日々大量に収集・蓄積されている。これらのデータを活用し品質のばらつきを説明する回帰モデルを構築できれば、品質や歩留が悪化する要因の特定と改善に大きく寄与する。

当初はLasso(ラッソ)やCoCoLasso(ココラッソ)といった既存のスパースモデリングの手法を試していった。Lassoはデータの項目が多い場合にも分析を可能にし、歩留まりへの影響度の高い重要な項目だけを絞り込むことができる。また、CoCoLassoは欠損値を補完することなく直接、回帰モデルを構築することで、全体の計算時間を短縮できる。

しかし、次第にこれらの手法だけではうまくいかないケースが出てきた。というのは、データにあまりにも欠損値が多かったからだ。工場で計測される実際のデータには測定ミスや通信エラーによる欠損が発生するだけではなく、抜き取り検査によって品質を確認することが多いため、1割程度しかデータを収集できない場合もある。CoCoLassoは欠損値を含むデータにも対応するものの、欠損率の高低を考慮しない方式であるため、欠損率が高い項目があると、それに引きずられて全体の精度が下がってしまうのだ。

とはいえ、これこそが現実の製造現場から得られる実データの特質であり、この問題を解決しなければ、工場の生産性向上の決め手にはならない。そこで、藤澤と田氏、西川氏は新たな手法の開発に乗り出した。「既存の手法で何とかならないかと考えていた状況から一歩踏み出した挑戦でした」(田氏)。

こうして生み出されたのが、「HMLasso(エイチエムラッソ、Lasso with High Missing rate)」だ。影響度の高い項目の絞り込みができ、欠損データの補完をしなくていいといったCoCoLassoの特長に加えて、欠損率の高低に応じて柔軟に計算する方式としたことで、欠損率が高い項目があっても高精度な回帰モデルの構築が可能となった(図1)。

図1:HMLassoの活用イメージ。大量の欠損を含むデータからでも、高い精度で要因解析を行うことができる。

この技術の有効性は、理論と実験の両面から検証が完了している。理論解析では、欠損率を活用することで誤差の許容限界が最適になり、従来のアルゴリズムよりも優れていることを検証。数値実験では、平均欠損率50%でデータ項目によっては欠損率が90%以上となる人工データでベンチマークし、最先端のアルゴリズム「CoCoLasso」と比べて推定誤差を約41%削減することに成功した。

熟練工の知見を反映したAIで解析結果の精査を1日に短縮

一方で、半導体工場や化学プラントではデータの欠損率に関わらず、既存の手法を適用しても解析の安定性が上がらないケースがあった。工場のデータで毎週定期解析を行っても、データの数値がわずかに変わっただけで解析結果がそのつどガラリと変わってしまう。「手法が不安定なせいなのか、本当にデータの傾向が変わっているのか判別できず、何とかならないかとずっと思っていました」と田氏は振り返る。

本質的なデータの傾向をあぶり出すには、解析結果を安定させることが大前提だ。2019年の年末、入浴中にこの問題を考えていた田氏の脳裏に突然、アイデアがひらめいた。前回の解析結果を利用して、差分が小さくなるようにアルゴリズムを設計すればいいのではないか――。すぐに数式を書き留めた。それは、Lassoの数式に、||β-β̰||というわずか1項を書き加えただけの簡素な式だった。

田氏からこの数式を見せられた藤澤は驚いた。「これはすごい、と感激しました。考え方を端的に言えば『過去の蓄積を現在に使う』という当たり前のことですが、なかなか思いつかないシンプルで効果的な発想でした」(藤澤)。二人はこのアイデアに夢中になり、特に田氏は寝る間も惜しむようにして理論解析と数値実験に没頭。2週間程度で新たなアルゴリズムと理論の骨子を確立し、「Transfer Lasso(トランスファーラッソ)」と名付けた。

「Lassoの理論を応用し、じつに多様な証明ができた。中学生のときに数学の先生から難問を出されて1カ月ほど夢中で考え抜いた末に解けたことがあったのですが、そのとき感じた高揚感が、約20年の時を経て再び舞い戻ってきたような、そんな気がしました」。田氏の口調が熱を帯びる。

Transfer Lassoの優れている点は、解析の安定性が増すことだけではない。「過去の蓄積」を使うということは、工場で日々生産に携わる熟練技術者の知見を解析に盛り込むことができるということにもなる。セレンディップな発見だった(図2)。

図2:Transfer Lasso の概念と数式。解析の安定性向上と同時に、熟練技術者の知見を活用することに成功した。

例えば、前週に「不良原因として圧力と装置の影響度が高い」という結果が出たものの、熟練技術者が経験則によって「圧力は原因ではない」と判断した場合、圧力の係数を「0」と入力する。Transfer Lassoは変化を最小限に抑えた状態で学習を繰り返し、前週と比べて変化のあった項目のみを推定する。工場の技術者は、新たに抽出された項目さえチェックすればよく、毎回同じ項目を確認する手間が不要になる。生産性向上に寄与するのはもちろん、少子高齢化によって危惧される技術の継承にも役立つ。

企業との共同研究が論文化され注目を浴びる

この共同研究によって生み出されたHMLassoとTransfer Lassoは、いずれも論文化され、公開されている。その結果、日経BPマーケティングの発行するロボット技術の専門情報誌「日経ロボティクス」の連載企画「SEXY TECHNOLOGY」で大きく紹介されるなど、関係各所の注目を集めている。

一般に、企業の生産現場から得られるデータは機密情報に属することから、社内で開発されたアルゴリズムが世の中に公表される例は少ない。一方で研究者は、研究成果を論文の形に落とし込めない案件には関わりにくい。その意味で、統数研の研究者が参画して企業の研究者とともに現場発の課題解決に取り組み、その共同研究の成果が論文発表まで至ったことは、産学のお互いにメリットがある成功例といえる。

もちろん、論文化にあたっては、実データではなく人工データを用いるなど、秘匿性に十分配慮した。藤澤は「ウェブ上のデータベースに既成のデータセットがあると思っていましたが、欠損率9割という条件に合うものは見つからず、苦労しました」と明かす。

HMLasso は、2019年に人工知能のトップ会議「IJCAI」に論文を受理された。また、東芝が投資家などを対象として開催する技術戦略説明会においても、執行役専務CTOが紹介する目玉技術の一つとして取り上げられた。

Transfer Lassoは、2020年に、機械学習トップ会議「NeurIPS」に受理されるという快挙を成し遂げ、「第23回情報論的学習理論ワークショップ(IBIS2020)優秀発表賞」にも輝いた(図3)。

図3:共同研究の成果。Transfer Lassoに関する論文は、機械学習のトップ会議NeurIPSに採択された。

優れたアルゴリズムが生み出され、公開されることは、世界中の製造現場で生産性が向上することにもつながる。オープンソースソフトウェアとして提供している「hmlasso」のダウンロード数の伸びが、多くの企業で活用されていることを示唆している。「さまざまな場所で使われ、技術革新に結びつく。世の中のためになっているという実感を得ることは、研究者冥利に尽きます」と藤澤は話す。

アドホックになりがちな現場の課題解決に汎用性を持たせる

一方、企業サイドにとって、統数研との共同研究にはどのようなメリットがあるのか。今回のプロジェクトに関して、田氏は次のような感想を述べる。「製造現場の個々の課題にアドホックな対応をしているだけでは、汎用性の高い方法論は生み出せません。統数研との共同研究によって、統計学の理論的な知見を解析に導入して、幅広く活用できるアルゴリズムを確立することができました」。

例えば、Transfer Lassoは拡張性が極めて高いという特長を持つ。「損失関数の部分は、二乗誤差だけでなく一般の損失関数に容易に拡張できます。そのため、製造現場の中だけでも、良品/不良品を判別したり、欠陥数や欠陥率の変動原因を同定したりと、さまざまな用途に使うことができます」と高田氏は説明する。

機械学習において統計理論に基づく高いモデリング技術を有することは、研究開発力における企業のプレゼンス向上にも結びつく。最先端の分野でトップを疾走する企業の活気は、優秀な若手人材を惹き付ける魅力にもなるだろう。統計学の専門集団である統数研と産業界の強力なタッグは、持続可能な社会づくりに貢献するに違いない。

(広報室)

新型コロナウイルス感染拡大防止のため、本インタビューはオンラインで行われました。


ページトップへ