Materials Informatics (MI)は、「機械学習・AIの力を借りて、材料開発を行う手法」です。 この10年余りの企業での試行錯誤により、MIが材料開発現場で実際に役立つ手法であることが証明されつつあります。 実務家たちの間で「MIは使えるツールである」という認識が広がりつつあることが、私がMIに注目する理由です。
研究開発の実務において、MIが有用なツールであることを認識している読者も多いでしょう。 しかし、「実際に、MIは何ができるの?(逆に、何はできないの?)」という質問を上長から投げかけられたとき、よどみなく答えられる方はどれほどいるでしょうか。 実務の中で様々な方と話をする際、MIに対する誤解や知識不足に遭遇することが少なくありません。 そういう私自身も、この問いに対して明快に答えることが難しいと感じている実務家の一人です。
図1: MIの各ステップでの具体的な作業内容と、それらがどのように連携して材料開発を進めるかを示す
概念図。データ収集から予測・最適化までの流れを表現。
図1に示す通り、MIは「機械学習・AIの力を借りて、材料開発を行う手法」ですが、特定の技術を用いている以上、必ず得手不得手があります。 そのため、MIを利用する・利用したいと考える者にとって、「MIは何ができるのか?」を事前に理解しておくことは極めて重要です。
しかし、この理解を深めることは簡単ではありません。その理由として、以下の2つが挙げられます:
本シリーズでは、「MIは何ができるのか?」という素朴な疑問に答えるため、様々な角度から考察を行います。 対象読者はMI初心者~中級者を想定しており、MIの初歩的な知識はお持ちであることを前提に話を進めていきます。
シリーズは全5章を予定しています:
このシリーズを通じて、読者の皆様がそれぞれの立場から「MIは何ができるのか?」という問いへの答えを見つけられることを願っています。
早速、次のセクションから、「MIの特徴から、具体的にMIは何ができるのか?」について話を進めていきます。
MIの本質的な特徴は、インフォマティクス(統計的手法)がもつ帰納論的なアプローチにあります。 帰納論とは、「いくつかの個別の事象から一般的な規則・法則を抽出する手法」です。
分かりやすい例として「風が吹けば桶屋が儲かる」ということわざを考えてみましょう:
これをMIの文脈で考えると:
具体的な例として、ポリマーA、B、Cにそれぞれ添加剤Zを加えると、いずれも耐熱性が向上したというデータから、「ポリマーに添加剤Zを添加すると耐熱性が向上する」という一般的な法則を見出すことができます。 このように一般的な法則を見出すことで、耐熱性材料の開発を効率化できます。
ここで重要な要素の一つが「過去の材料開発データ」です。 そして、そのデータから意味のある一般的な規則・法則を抽出できるかどうかが、MIの成否を分ける重要な要素となります。
図2に示した図は、実験データからある極大値を示す関係性を抽出できたもの(右上)と、出来なかったもの(右下)を対比したものです。 この図からも分かる通り、規則・法則を正しく抽出するには、実験データが、法則の特徴的な箇所全体をカバーできている必要があります。 つまり、MIでは「どんなデータを学習させたのか」が大切だということが分かります。
念のため補足しておくと、機械学習モデルの学習精度(例えば、決定係数(R2)や二乗誤差(MSE)など)は、右上と右下のグラフで大差ありません。 モデルの学習精度は、学習したデータとモデルの予測値との差の大小を取り上げています。 そのため、データが存在しない領域のモデルが、実際の法則に当てはまっているか否かは全く評価していないので、十分に注意してください。
図2: データの質と量が、法則の抽出精度に大きく影響することを示す図。
右上は正しく極大値を捉えているが、右下はデータ不足により正しい関係性を抽出できていない例。
それでは、人間とMIで学習方法に違いはあるのでしょうか。 この点を掘り下げてみます。
私たち人間は、過去の実験結果から、次の実験結果を予測します。 また、過去の研究テーマと似た研究テーマを進める際には、過去の成功例や失敗例を参考に研究計画を立案します。
MIでも同じことが可能です。過去の材料開発データから:
1と2では順解析を使い、3では逆解析/最適化という手法を用いています。
人間とMIの経験則には、どのような違いがあるのでしょうか。 材料開発において、人間とMIは異なる方法で情報を処理します:
現在のMIは、事前に準備されたデータを使い、決められた手順・アルゴリズムに従って経験則を導きます。 そこには、人間と同じように直感や勘を働かせたり、セレンディピティを発揮する要素はありません。
例えば、MIによる「新しい研究計画の立案」では、ガウス過程回帰とベイズ最適化を組み合わせて、不確実性が高い/未探索の領域を優先的に実験することで、確実に最適解にたどり着けるような仕組みを採用しています。 MIは予想外の飛躍が少ない代わりに、確実に論理的に最適解にたどり着くことができるのです。
現時点では、ここが人間とMIの最大の違いだと思います。
他にも、MIには以下のような強みがあります:
1. 多様な解析手法の活用
機械学習の分野は日進月歩で研究開発が進められており、これまで以上にMIの強みが増すことは疑う余地がありません。
図3: 人間とMIの特徴それぞれが得意とする領域を視覚的に表現した図。
左は人間の直感的な経験則、右はMIのデータ駆動型の経験則を示す。
「データから学習する」という表現は、これまで述べてきた「規則・経験を抽出する」、「経験則を見出す」、「類似事例を見つける」とほぼ同じ意味です。
機械学習の文脈では、より具体的に以下のように定義されます:
つまり、「与えられたデジタルデータから回帰もしくは分類モデルを学習する」ということです。 一見、これは非常に単純で理解しやすい内容のように思えますが、実践では厄介なことが起こり得ます。
例えば、与えられたデータにバイアスや意図しないエラーが含まれている場合、それらの特徴も学習してしまいます。 人間であれば無意識に選別するようなエラーであっても、機械的に選別するのは厄介な場合も存在します。
Kozaの著書に記された、電子回路の自動生成に関する実験を例に挙げましょう[1]。 遺伝的プログラミングを用いて電子回路の設計を自動生成させたところ、人間が準備した模範解答とは異なる回路が得られました。 しかも、その性能は模範解答を上回ります。
これは、電子部品には製造上のばらつき等が存在しており、理想的な電子部品とは異なっていることが原因でした。 つまり、理想的な電子部品を組み合わせた理想回路を出力したのではなく、実物の(非理想的な)電子部品に最適な回路を提案したのです。
このように、人間が意図しようとしまいと、バイアスやエラー込みのデータから回帰や分類の関係性を抽出するのが、機械学習において「データから学習する」ことの意味になります。
「MIは予測能力がある」と表現すると、「全く未知の材料を発見する能力がある」と勘違いするかもしれません。 しかし、MIにおいて、学習データの範囲から外れる領域の予測精度は全く保証されていません。これに関しては特に注意が必要です。
紫色点線部分が学習モデルの適用範囲。
図4に示す通り「学習モデルの適用範囲」と呼ばれる概念が存在します。 大雑把に表現すると、「学習モデルの適用範囲は学習データに近い範囲」です。 シミュレーションなどの理論に依拠した計算にも境界条件(理論の適用範囲)がありますが、それとは異なり、あくまで学習データに近しい入力に対してのみ、精度の高い予測が可能です。
実務において、属人的知識をMIに落とし込むことには重要な意味があります:
昨今、経営・マネジメント層の多くがMIに着目する理由は、日本特有の終身雇用が崩れてジョブ型雇用が台頭したり、人手不足が慢性化することにより、会社固有知識が消失することを危惧しているからではないでしょうか。
失われた知識を取り戻すことは容易ではありません。 従って、属人的知識をMIに落とし込むことは、今や経営課題の一つと言っても過言ではないのかもしれません。
また、近年の材料開発は、必要とされる知識が急速に複雑化しており、関連技術が多岐に渡ります。 もはや、個人が専門家として保持できる知識量を大きく超えています。
複数人の属人的知識をMIに統合的に蓄積し、一貫した形で活用できるようにしておくことが、今後の材料開発では望まれます。
属人知識を意味ある形で蓄積するには、いくつかの課題があります:
化学分野ではアナログ的な感覚に優れ、直感的に経験則を導き出せる人が多く存在します。 裏を返せば、アナログ的な感覚に優れるが故に、デジタル化データの取得には消極的な場合が多いように思います。 デジタル化に消極的な人からも協力を得て、必要十分な精度のデータ収集に努める必要があります。
今回は、第1章「MIで実現できること」の前半として、MIの本質的な特徴を詳しく述べました。 改めて要点を箇条書きにすると:
次回は、第1章「MIで実現できること(後半)」をお届けします。 データから具体的に何が学べるのか、MIを実践で扱う際の注意点などを述べる予定です。
セレンディピティ: 偶然の幸運な発見や、予期せぬ価値ある発見を指す。科学の分野では、意図せずに重要な発見をすること。