目次
GANはディープラーニング(深層学習)を活用した技術です。AIの発達により、十分な量と質のデータを学習させることで、画像認識や画像生成の精度を高めることが可能になりました。
この記事では、GANの基本知識からメリットデメリット・活用方法などを解説します。自社にGANの導入を検討している方は、ぜひ参考にしてください。
GAN(Generative Adversarial Networks)は生成モデルの一種です。2つのニューラルネットワークを競わせてデータを学習させることから、”敵対的”生成ネットワークとも呼ばれています。2014 年当時モントリオール大学で博士課程の学生であったイアン・グッドフェローによって発表されました。
GANを利用すると、実在しないデータの生成や学習したデータの特徴に沿った変換、元データの特徴を含む新しいデータの生成なども可能です。さらに、ぼやけているような画質の低い画像から高解像度の画像を復元することもできます。
GANは、AI/機械学習の第一人者であり当時Facebook(現Meta)のAI研究所所長であったヤン・ルカン(Yann LeCun)氏によって「機械学習においてこの10年間でもっとも面白いアイデアである」と評価されたことでも有名です。
GANの仕組みは、「Generator」と「Discriminator」の2つの要素で構成されています。Generatorは入力データの偽物を作り出し、Discriminatorはその偽物を見破るウソ発見器の役割を担います。この流れを繰り返すことで、生成データを入力データに近づけることができます。
GANを使うことで高画質の画像生成やリアルタイムでの動画の画像変換などができます。ディープフェイクの「顔画像処理」と「音声処理」を用いれば、本人が発言しているような動画まで作成可能です。その他にも文章で書かれた特徴から画像を生成することも可能です。
従来のGANには学習時に不必要な画像を生成したり、生成データの種類が偏るといった課題がありました。しかし現在では解決に向けてResNet(Residual Network)というニューラルネットワークが考案されており、日々技術が進歩しています。
GANは、高度な画像生成技術を持つだけではなく、他の技術との組み合わせによる相乗効果も期待できます。以下では、GANのメリットについて解説します。
他の生成モデルと比較して、はるかに高画質の画像を新たに生成できる点がGANのメリットです。代表的な画像生成技術には、GANの他にVAE(変分オートエンコーダ)というものがあります。
VAEは、GANと同様にディープラーニングを用いた生成モデルの一種です。しかし、生成される画像の解像度が低いという欠点があります。
一方、GANは学習が進むにつれて精度の高い画像を生成できるため、VAEより社会でも活用しやすい仕組みといえます。
GANを他の技術と組み合わせることで、さらに利用可能性を広げることができます。一例を挙げると、自然言語処理技術であるword2vecとGANを組み合わせれば画像ラベルからの演算を行うことが可能です。たとえば、「鈴をつけた猫ー猫+犬」という演算から「鈴をつけた犬」の画像を生成できます。現在は簡単な演算のみ対応していますが、将来的には複雑な演算からより精度の高い画像が作成されると期待されています。
GANにはメリットだけでなくデメリットもあります。以下で、詳しく解説します。
GANは動作の不具合が多く、学習が不安定になる場合があります。具体的には、ある段階を越えると学習が進まず学習不足になる「勾配消失問題」や、入力された画像と類似した画像ばかりを生成してしまう「モード崩壊」といったエラーが起こることがあります。このようなエラーを防止してGANに正確な学習をさせるために、偽物を作り出すDiscriminatorと偽物を見分けるGeneratorの性能のバランスを保つことが重要です。
データの判定基準があいまいな点もGANのデメリットです。画像を「似ている」とどのように判断するのか基準は、コンピュータが生成した画像でも、見る人によっては「似てない」と感じることがあるほど不透明です。ただし、今後は判断基準の精度は改善されることが予想されているため、技術の進歩によって問題が解決されることが期待できます。
GANには種類があり、それぞれ特徴や得意分野が異なります。以下で、3つの技術を解説します。
CGANは、GeneratorとDiscriminatorに追加の条件情報を与えて条件付けの訓練をするGANで、条件付きGANとも呼ばれています。例えば、0〜9の数字の生成を学習させると、「数字の5を生成」のように指定して画像の生成ができます。
CGANは本物のデータとラベルの正しい組み合わせのみ受け入れ、他のデータは拒否する学習が可能です。通常のGANとは違い、指定した条件に合わせて画像を生成する場合に利用します。
DCGANはCGANの一種です。GANで生成されたぼやけた画像を、より自然な形に生成できます。オリジナルのGANやCGANに比べて高解像度の画像を生成できるだけではなく、深いネットワークでも安定した学習が可能です。より鮮明な画像を生成する場合にDCGANは活用しやすいといえます。
StyleGANは、段階的に解像度を上げていく画像生成技術で、本物と区別がつかないリアルな写真の生成が可能です。また、そばかすや髪などの確率的な変化を生成画像に含めることにも成功しています。このように細かいデータの生成や変換が可能なため、本物と見分けがつかない画像を作ることができます。
GANはリアルな画像を生成できるため、ビジネスにおける活用の幅が広い技術です。以下で活用できる場面を解説します。
GANを使えば、ビジネスで利用するデザインの効率的な作成が可能です。フォントの種類や色などのデータをAIに学習させると、数千パターンのロゴを自動描画で生成できます。この技術を応用すれば、建築や工業製品、看板など幅広いデザインを自動で高速に作成することが可能になるため、社会実装も期待されています。
GANは成果につながる広告クリエイティブの作成に活用することもできます。たとえば、企業やブランドのイメージに合った架空の人物を作成することができます。また、ターゲット属性に沿って作成した人物の服装や髪型もカスタマイズ可能です。これにより、従来は必要とされたモデルのスケジュール調整や撮影場所の環境整備といった工数を大幅に削減することができます。さらに、多様なポージングや衣装による追加撮影も必要ないので広告クリエイティブをよりスピーディーに作成できます。クリエイティブの作成と工数の削減、どちらも企業にとって大きなメリットになります。
GAN(敵対的生成ネットワーク)は、高精度の画像の生成や変換ができる技術です。これらは今なお進歩しており、製造、飲食、介護、小売など幅広い業界における業務の効率化やコスト削減に活用されることが期待されています。
EAGLYSでは、AI導入の構想策定から協働してアイデアの具現化を実現します。AIアルゴリズム設計技術を用いて、企業のAI導入をサポートします。さまざまな種類のモデル設計も行っているため、AI導入を検討されている方はお気軽にご相談ください。