目次
AI/IoTの活用が広がる一方で、企業はデータのプライバシー・セキュリティへの対策や解析のためのデータ通信・保管コストの捻出が求められるなどデータ利活用の推進には課題が残っています。
今回は、これらの課題に対応しつつ理想の解析結果を得られる機械学習手法として注目を集める「連合学習(フェデレーテッドラーニング Federated learning)」を紹介。連合学習の仕組みや機械学習との違いや懸念点、そして活用例等を解説します。
連合学習(フェデレーテッドラーニング)とは、データそのものを集めることなく、特定のAI解析によって得られた分析結果・改善点などの要素のみを統合する機械学習の方法です。
連合学習によってプライバシー・セキュリティに配慮した複数事業社間でのデータ連携や、データ通信・保管のコスト削減を実現します。このセクションでは、連合学習でできることについて詳しく解説します。
通常、異なる業種や企業間でデータを共有する際は、両者のセキュリティポリシーを調整したりデータ連携システムを構築したりと、さまざまなコストが発生します。
連合学習は、複数の事業者のデータを使ってAIモデルを構築する場合でも個社の環境で抽出した分析結果のみを提供するため、データを直接やりとりする必要がありません。
連合学習によってプライバシーやセキュリティを担保しながらあたかもデータ連携をしたかのように、複数事業者間のデータを活かしたモデルを構築できます。
既存の機械学習では、データを一か所に集めて学習を行うため、データ通信・保管コストが発生していました。
連合学習は、個々のデバイス、環境で機械学習を行い、クラウド上で分析結果・改善などの要素のみを統合するため、学習に使うデータ等が分散化。膨大なデータ通信が必要なく保管コストも削減できます。
連合学習と機械学習の違いは「学習方法」にあります。
連合学習の学習では、モデル学習用のクラウド環境一か所で行うのではなく個々のデバイスや個社の解析環境で分散して行ないます。学習場所が分散しているものの使用するモデルは同じであるため、得られる解析モデルは通常の一か所で学習させたモデルと同一になります。
連合学習の具体的な学習の流れは、以下のとおりです。
これらの手順を繰り返し、徐々に高精度の解析結果やモデルが得られるようになります。
機械学習やAIモデルの精度向上には、膨大なデータを使った学習が必要です。一定程度のパフォーマンスを発揮するAIモデルを作る場合、大体1クラスにつき5,000件程度のデータが必要と考えられていますが、もし人間と同じレベルの精度を求めようとする場合は、2000倍の10,000,000件程度のデータが必要になる場合があります。
従来は対象のデータを一か所に集めて学習させていましたが、上記のように大量のデータを使う場合や複数社から学習データを提供される場合、そのほか個人情報等の厳重な取り扱いが必要な場合には、データを一か所に集めることは現実的ではありません。
なぜなら、学習データを集めるためには事前にクラウド等のデータ解析環境のセキュリティ対策が万全だと確認しておく必要がありますし、機密性の高いデータを一か所に集める点においても、情報漏えい・改ざん等のリスク対策をする必要があるためです。
連合学習の場合、分析結果・改善などの要素のみを統合するため、プライバシー・セキュリティに配慮した複数事業社間でのデータ連携や、データ通信・保管のコスト削減を実現できます。こうした特徴から、連合学習の社会での活用が今まさに進んでいます。
連合学習の事例としては、2017年にキーボードの文字入力の学習を個々のデバイスでも行なったGoogleの例が有名ですが、すでに社会生活でも活用が始まっています。この章では金融、医療、介護業界での事例を紹介します。
金融取引におけるアンチマネーロンダリングや不正取引、高齢者を狙った特殊詐欺の手口は年々高度化しています。それに伴う対策費用も全世界的に増加し、*金融業界全体での対策が急務となっています。
従来は各行でデータを解析し、ルールベースで疑わしい取引を検出していましたが、次々と出てくる新手の詐欺や複雑な手口すべてを銀行毎に対策し続けることは、データの質・量ともに限界があります。
不正取引の検知に連合学習を取り入れることで、各行の分析で得られる疑わしい取引の傾向値を共有することができ、業界全体で網羅的な犯行に対応することができるようになります。
また、金融取引に密接に関わる個人の情報を銀行外に出すことなく解析が行なえますので、プライバシー・セキュリティの観点でもデータ提供者からの理解を得やすいうえ、各行で対応することによる分析コスト肥大化への対策にも繋がります。
医療業界では個別化医療や医師の診断支援へのAI導入が取り組まれています。しかし、解析されるデータが医療診断データ等個人情報と密接にかかわることから、特殊な症例や有効な治療の解析結果そのものを他の医療機関と連携することは簡単ではありません。
連合学習を取り入れることで、医療診断のデータそのものではなく特徴や改善点のみを共有できるようになります。複数の医療機関から集まる分析結果を統合すれば、あたかも電子カルテや組織片の採取データを共有したかのように解析でき、各医療機関での臨床診断等に活かすことも可能です。
高齢化社会が進み、介護福祉施設の利用者が増え、介護職員の人材不足が深刻化しています。人材の教育には時間がかかることで人材確保による対策も間に合っていないのが現状*です。
そうした介護職員の人手不足を解消するために、センサーや画像データを活用するAI/IoTソリューションの導入が介護福祉施設でも検討されています。個々のデバイスに組み込まれるAIモデルは、利用者のニーズ多様化に対応することが求められますが、モデルの更新を行なう際のプライバシー対策が懸念されていました。
介護福祉施設のAI/IoTソリューションの学習に連合学習を用いることで、個々のデバイスやシステムで得られた利用者の行動データ等の解析結果のみをローカルAIモデルからグローバルモデルに連携できます。
これにより、あたかも利用者へのヒアリング結果や施設内のカメラによる画像データを使ったかのように利用者の心身の変化を検知し、室温や光量等を自動調整する住環境が実現できます。さらに個別のAI/IoTデバイスからクラウドに定期的に改善点を集約することでソリューションの機能や施設全体の運営の改善に繋がります。
機械学習を個別のデバイスや個社の環境で行なう点は連合学習の特徴です。この仕組みはエッジコンピューティングにも応用されています。ここからは、今まさに社会での活用が進む連合学習の、さらなる可能性について紹介します。
エッジコンピューティングとは、IoTデバイスやその近くのエッジサーバにデータ処理・データ分析機能を持たせる技術の総称です。
クラウド上の一か所にデータを集約して処理するクラウドコンピューティングに対し、ユーザーに近いデバイス等やデバイスと物理的に近い場所に分析処理機能を持たせることから、エッジ(末端)コンピューティングと呼ばれています。
エッジコンピューティングの利点は、データ処理によるコンピューティング負荷が分散され、データクレンジングをリアルタイムにおこない(低遅延)、ネットワークの通信帯域幅を節約することができることです。さらに必要な差分データ・解析結果のみをクラウドに送ることで、ユーザーの属性や個別性の高い情報をクラウド上に送る必要がなくなり、セキュリティも担保されます。
連合学習には、紹介したクラウドAIモデルを更新する「中央集権型の学習モデル」を社会に導入する動きが進んでいますが、中央のクラウドを無くす完全な分散型(P2P)への取り組みも期待されています。
完全な分散型の場合、定期的な特徴量・差分データを連携するクラウドAIモデルの存在がなくなることで、AIモデルやデータ解析結果が改ざんされるリスクを払拭できます。
また、最新のモデルのバージョン管理にブロックチェーン(参考リンク差し込み)を用いることでもモデル改ざんのリスク対策となります。
このように、連合学習およびAIとブロックチェーンを連携した応用例も検討がはじまっています。
連合学習は、データそのものを集めず、解析結果による差分データや特徴量だけを統合する機械学習方法です。プライバシー・セキュリティへの対策になると同時に、データ通信の不可の軽減にもつながることから、複数社でのデータ連携や機密なデータ分析を低コストに行いたい場合にも有効と考えられ、金融や医療業界などの分野では社会実装が始まっています。
EAGLYSでは、AI解析などのデータ利活用とデータのセキュリティを両立する解決方法として、秘密計算のほかに連合学習の社会実装支援も行なっています。AI活用時のセキュリティ対策や、連合学習を用いた社内外でのセキュアなデータ利活用を検討されている方は、ぜひお気軽にお問い合わせください。