BLOG ブログ

AIで化合物と特許の類似性を解析する「PatentFinder」とは?

 

こんにちは。EAGLYS MIリサーチャー&エンジニアの温です。

「この構造、いい活性が出ている。でも特許は大丈夫かな……」こんな不安を感じたことはないでしょうか?  創薬の現場では、AIによる分子設計が加速していますが、それに伴って特許リスクの見極めがますます重要になってきました。特に、化合物が既存の特許請求項とどの程度似ているか、法的な視点で判断するのは非常に手間がかかります。

本記事では、2024年に発表された論文「Intelligent System for Automated Molecular Patent Infringement Assessment」を紹介します。この論文で提案された「PatentFinder」というAIシステムは、化合物と特許の類似性を自動で解析し、人間が理解しやすい形で可視化してくれるツールです。特許文書を読むのが苦手な研究者をサポートしてくれます。

化合物に関する特許の問題:なぜ見落としがちなのか

scientist-pc

化合物に関する特許は、通常「特許請求項」と呼ばれる文章で記載されています。これが非常に抽象的でかつ法律用語が多く、研究者が読んでも意味がつかみにくいものです。

例えば「~からなる群より選ばれる少なくとも一種」といった、マーカッシュ形式などを用いて記載されます。化学構造を具体的に示している場合でも、その周辺の置換基の定義などが広範であったり、上位概念で表現されていたりするため、一見して具体的な化合物をイメージしにくいことがあります。

研究者がAIや直感で新しい分子構造を設計したとき、それが既存の特許に引っかかるかを人力で判断するのは極めて困難です。世界中で日々膨大な数の特許が出願・公開されており、その中から関連する可能性のある特許をすべて人力で調査し、複雑な請求項を解釈して抵触するか否かを判断する必要があるからです。良い分子をせっかく見つけても、後から特許が取られていることが判明すれば、その分子は使えなくなります。そうなると、時間もコストも無駄になるのです。

PatentFinderとは?AIがやってくれること

論文で提案されたPatentFinderは、AIを使って分子と特許の関係を自動で解析してくれるツールです。

PatentFinderの主な特徴

  • 子構造(SMILESなど)と特許請求項(テキスト)を入力
  • 特許文を読む「文理解エージェント」、分子を読む「分子理解エージェント」など、役割の異なる5つのAIエージェントが協力
  • 的に「この分子はどの特許と似ているか」「どの箇所が問題になりそうか」をわかりやすく可視化してレポートで出力できる

PatentFinderによって合成前に特許侵害の可能性をあらかじめ評価できる、無駄な実験やコストを減らせる、論文発表・技術移転の際にも安心して進められる、といったメリットが得られます。

特に注目すべきは、単にAIが類似性を判定するだけでなく、その理由を人が読んで理解できる形で出してくれるという点です。「特許が怖くて新しい分子を作れない」という心理的ハードルを下げてくれる存在になり得ます。



 

PatentFinderの仕組み

Overview of PatentFinder-1 引用元:https://arxiv.org/html/2412.07819v1

5つの主要エージェントの役割を、下記のリストにまとめました。主な流れとして、構造・要件・マッチング・検証の4段階アプローチで各エージェントが専門性を活かしながら、Plannerによる最適化されたワークフロー制御を行います。

各エージェントの役割

 種類 

 内容   詳細説明 
Planner  司令塔・プロセス制御   全体の流れを設計・制御する司令塔。各エージェントの順序や協力関係を調整し、効率的な解析プロセスを構築します。 
Sketch Extractor   分子構造特徴抽出   分子構造から特徴的な部分構造や官能基を抽出するエージェント。これにより、どの構造が類似性評価の鍵になるかを明らかにします。 
Requirements Examinator   特許要件解析   特許請求項のテキストから、化学的な条件や構造的要件を読み取る役割。法的表現を化学的視点に翻訳するようなイメージです。 
Substitutes Matcher   構造マッチング評価   抽出された分子構造と特許側の要件を突き合わせ、どこが一致・類似しているかを評価。置換基などのバリエーションにも対応。 
Fact Checker   妥当性検証・統合 

 最終的な判断の妥当性を確認する役割を持ち、他エージェントの出力を統合して一貫性のある判断へと導きます。 

PatentFinder Input & Output

 種類 

 項目    内容  形式
Input   分子構造   評価対象となる候補分子  SMILES(例: CC(=O)OC1=...
Input  特許請求項テキスト   分子に対する法的保護内容を記述した特許文書の一部  英語の自然言語テキスト(Claims)
Output   侵害リスクの判定   その分子が特許と類似しているか、侵害の可能性があるか  「侵害可能性あり/なし」などの定性評価
Output   類似構造の可視化  特許と一致・類似している構造を視覚的に表示 ハイライトされた構造式(画像)
Output   解釈付きレポート 

どの特許と似ているか、どの部分が問題かの説明付き出力

テキスト+図(HTMLまたはPDF形式)

PatentFinderは他のLLMより何が優れているのか?

Case study on MolPatent-240

 引用元:https://arxiv.org/html/2412.07819v1

一般的なLLM(大規模言語モデル)は文章生成や質問応答には優れていますが、特許と分子構造のように「テキストと化学構造を結びつけて法的判断を下す」といったタスクには限界があります。PatentFinderはその点において、以下のような点で際立った強みを持っているのです。

  • 役割分担されたマルチエージェント構成
    各エージェントが異なる視点(化学的・法的・論理的)から分担して解析を行うため、判断の一貫性と精度が高い。

  • 解釈可能なアウトプットの生成
    単なる「似ている」ではなく、「どこがどう似ているのか」を構造式とテキストで明示してくれる。

  • 部分的にルールベース/機能分担型で設計されている
    汎用LLMのように何でも1つのモデルに詰め込むのではなく、役割分担されたエージェントが段階的かつ論理的に処理するため、より高精度かつ解釈可能な結果が得られる。

 種類 

LLM単体  PatentFinder 
 思考プロセス   「似ている」だけ説明が不足  エージェントごとに何を処理したか明示 
 構造解析   Markush解釈の精度が低い   Sketchで抽出+Substitutesで精密照合 
 説明性   ハルシネーションを含む  図+テキストで理解しやすい可視レポートを出力 

 

 まとめ 

PatentFinderはまだ研究段階のツールですが、AI創薬のプロセスに標準装備される可能性を感じました。まだ公開されていないため実際に使ってはいませんが、概念自体の面白さと実用性から、研究者の間で広く使われそうな予感がします。

将来的には特許情報だけでなく、毒性予測、規制情報、商業的可能性なども、LLMモデルで統合的に判断できるようになるかもしれません。AIは「難しいもの」ではなく「実験者の右腕」になる存在。本研究はその良い例だと思います。

参考文献

Yaorui Shi, Sihang Li, Taiyan Zhang, Xi Fang, Jiankun Wang, Zhiyuan Liu, Guojiang Zhao, Zhengdan Zhu, Zhifeng Gao, Renxin Zhong, Linfeng Zhang, Guolin Ke, Weinan E, Hengxing Cai, Xiang Wang

「Intelligent System for Automated Molecular Patent Infringement Assessment」
https://jp.newsroom.ibm.com/2025-01-16-blog-foundation-models-for-materials

 

北斗特許事務所「マーカッシュ形式のクレームを作成する際の留意点1」

https://www.hokutopat.com/3985

 

 

Profile

 

EAGLYS MIリサーチャー&エンジニア

温庭立/Uen Tinnlea

東京大学 バイオエンジニアリング専攻 博士課程修了。データサイエンティストとしての経歴を経て、EAGLYSでMI分野の研究・開発に従事する。2024年には早稲田大学 創造理工学部講義 マテリアルズインフォマティクス 講師も。日本語能力検定 N1

_MG_1751

 

一覧に戻る