目次
アノテーションとは、機械学習に利用するさまざまなデータに、関連する情報をつけていく作業のことです。AI開発プロセスにおいてアノテーションは必要不可欠です。
この記事では、アノテーションの概要や役割、アノテーションで取り扱うデータの種類、AI開発工程におけるアノテーションの位置付けなどを解説します。教師データの収集方法やデータクレンジングの必要性などについても解説していきますので、ぜひ参考にしてください。
アノテーション(annotation)は、日本語に訳すと「注釈」になります。
機械学習においてデータに「注釈をつける作業」は、データに「関連する情報(メタデータ)をつける作業」のことを指します。
AIが適切な答えを高い精度で出力するためには、膨大なデータを集め、機械学習を繰り返し行う必要があります。その機械学習を行うためには、教師データを用意し、「例題」に対して「正解」を示すことが必須です。この教師データを作る作業をアノテーションといいます。
先述の通り、AIに学習させて精度を高めていくには大量のデータが必要となります。しかし、ただ大量のデータを収集すれば良いわけではなく、正しい情報がタグ付けされているデータを使うことが重要です。
アノテーションによってメタデータが適切にタグ付けされていなければ、AIモデルの精度が落ちてしまいます。精度が落ちる理由については後述します。
現在アノテーションはさまざまなAI開発に利用されています。アノテーションの対象となるデータは、大きく分けて3種類あります。ここではその3種類のデータについて解説します。
画像・映像データのアノテーションでは、画像や映像の特定範囲を囲み、範囲内の物がそれぞれ異なった物であると認識できるようにタグ付けが行われます。現在は、不良品検出や自動運転などさまざまな場面で活用されています。
画像・映像データのアノテーションには、物体検出、領域抽出、画像分類の3つの手法がありますので、以下で詳しく解説します。
物体検出とは、画像・映像から物体を検出し、その物体の意味をタグ付けする手法です。アノテーションツールを用いて画像・映像内の物体を長方形(バウンディングボックス)で囲み、「犬」「猫」「人」「車」などその物体が何であるかをタグ付けします。
自動運転や帳票作業などで幅広く利用されています。
領域抽出とは、画像・映像から領域を抽出し、その意味をタグ付けする手法です。バウンディングボックスを用いる物体検出とは異なり、特定の物体のみを囲んだ領域を抽出して、「空」「靴」などその領域が何であるかをタグ付けします。
さまざまな物が写っている画像・映像から「犬」のみを検出するなど細かな領域の抽出が可能です。
画像分類とは、画像・映像から検出された物体の属性をタグ付けする手法です。花の写真に「これは花かどうか」「色は何色か」「どんな模様か」などの属性をタグ付けして分類します。
顔認識に利用されることが多く、表情や感情の分析などに活用されています。
テキストデータのアノテーションは、特定のテキストデータに対してあらかじめ定義されているラベルをタグ付けしていく作業のことです。この作業では、「意図的分類」「感情的分類」「意味的分類」などのラベルに分類していきます。
テキストデータ全体に対して行われることもあれば、一部のテキストを指定してタグ付けが行われることもあります。テキストデータのアノテーションを行うことによって、ニュース記事のカテゴリ分類、迷惑メールの分類、SNSの不適切コンテンツの抽出などが可能になります。
音声データのアノテーションには、音量や音の種類にタグ付けを行う作業と音声の意味にタグ付けを行う作業の2種類があります。音声データをテキスト化し、単語一つ一つに音量や音の種類をタグ付けしていくことで、最終的に音声の意味をタグ付けして学習させます。
音声データのアノテーションは、コールセンターでのマニュアル検索、音声認識を用いる製品などで利用されています。
事前準備を含め、アノテーションは基本的に以下の流れで行われます。
アノテーションを行わずにただデータを収集するだけでは、AIが学習するために必要な教師データを用意することができません。そのため、AI開発工程においてアノテーションは必要不可欠な作業となります。
パンとおにぎりを判別するAIの開発を例として、AI開発工程とアノテーションの流れを解説します。
アノテーションを実行するためにはデータを適切に収集する必要があり、その収集方法にはさまざまなやり方が存在します。ここではデータ収集の方法を3つ解説します。
データ収集を行う場合は、まず初めに自社でデータを用意する必要があります。アノテーションツールなどを利用することも可能です。
社内にAI開発担当者などがいる場合は、アノテーションツールの利用によって自社でデータ収集を行いやすくなります。
自社でデータ収集を行うことが難しい場合は、教師データを販売している企業から購入する方法もあります。また、教師データの作成を委託できるサービスも存在するため、外部のサービスを活用することも可能です。
アノテーションを行う際には収集するデータの正確性も重要となるため、専門知識を持つ人材が社内にいない場合は、他社のサービスを利用する方法もあります。
外部からデータを収集するには、研究機関などが公開しているデータセットを利用する方法もあります。無料で入手できる場合もあるため、コストの削減につながります。
公開データセットは研究機関以外にもAI開発関連のサイトでも収集ができるため、アノテーションに必要なデータを効率的に収集することができます。
AI開発工程において、データクレンジングはアノテーションと並んで重要度の高い工程です。データクレンジングとは、データの中から破損しているもの、表記が誤っているもの、分析には無関係なものなどを取り除いて、必要な形に加工して抽出することです。
データクレンジングを行うことでAIがスムーズにデータを処理できるようになり、効率的に学習を進められるようになります。
データクレンジングを行わずに誤っているデータや破損しているデータがある状態のまま処理を行うと、処理に時間がかかる、分析の質が落ちる、エラーが出るなどの問題が発生してしまいます。
アノテーションを実行するためには、自身でのデータ収集、もしくはデータの購入、公開データから取得などが必要となります。また、実行するためにはさまざまな方法があるため、専門知識を持った人材が自社にいない場合、アノテーションを適切に実施することは困難です。
AI開発を手掛ける際に、社内に専門知識を持った人材がいない場合はEAGLYSのAI解析サービスの利用がおすすめです。EAGLYSのAI解析サービスでは、構想策定から協働してアイデアを具現化していきます。さらに、独自のAIアルゴリズム設計技術によって精度・汎用性の高い独自モデルを開発することが可能です。多様なAIモデルを開発してきた経験から、企業に合わせて様々な種類のモデル設計が可能です。
EAGLYSのAI解析サービスについて興味がある方は、ぜひお問い合わせください。