今回は、生成系AIの基盤モデルに焦点を当て、代表的なモデルをご紹介します。
AIエンジニア初心者の方々に向けて、
- テキスト生成系AI
- 画像生成系AI
- 音声生成系AI
- 3Dモデル生成系AI
のカテゴリに分けて、それぞれのモデルの開発企業や特徴、強みについて分かりやすく解説していきます。
基盤モデルとは
基盤モデル(foundation model) は、自己教師あり学習や半教師あり学習により膨大なデータで学習した大規模人工知能モデルで、 様々な下流タスクに適用することができる。
出典: フリー百科事典『ウィキペディア(Wikipedia)』
テキスト生成系AI
GPT-3 (Generative Pre-trained Transformer 3)
アメリカのOpenAI社によって開発された基盤モデルです。
GPT-3はTransformerと呼ばれる深層学習を基にし、大規模なデータセットで訓練された言語モデルです。自然な文章生成が得意で、複数の自然言語処理タスクに適用可能です。
大規模なコンテキストを理解し柔軟かつ高度な文章生成が可能で、幅広い自然言語処理タスクに利用できることが強みです。
BERT (Bidirectional Encoder Representations from Transformers)
アメリカのGoogle社によって開発された基盤モデルです。
BERTは双方向の文脈理解に優れたモデルで、自然言語処理タスクにおいて高い性能を発揮します。文脈を考慮した言語理解が特徴的です。
双方向の学習により文脈の理解が向上し、様々な自然言語処理タスクに適用できることが強みです。
画像生成系AI
DALL-E
アメリカのOpenAI社によって開発された基盤モデルです。
DALL-EはGAN(Generative Adversarial Network)(※1)を用いたモデルで、テキストの説明から画像を生成することができます。高品質でクリエイティブな画像生成が可能です。
テキストから多様な画像の生成が可能で、クリエイティブなアプリケーションに利用できることが強みです。
(※1)GANとは、Generative Adversarial Network(敵対的生成ネットワーク)と呼ばれるAIの一種です。GANはデータから特徴を学習することで、実在しないデータを生成したり、存在するデータの特徴に沿って変換できます。
StyleGAN2
アメリカのNVIDIA社によって開発された基盤モデルです。
StyleGAN2は高品質で多様な画像生成が可能なモデルであり、特に顔画像の生成において進化しています。リアルな画像合成が得意です。
生成される画像の品質が高く、特定の特徴やスタイルに応じた画像生成が可能であることが強みです。
音声生成系AI
Tacotron 2
アメリカのGoogle社によって開発された基盤モデルです。
Tacotron 2は、テキストから音声を合成するためのモデルです。自然な響きの音声生成が可能であり、AIによる音声合成技術の進歩を示しています。
テキストからリアルな音声を生成し、自然な音声合成が可能であることが強みです。
VALL-E
アメリカのMicrosoft社によって開発された基盤モデルです。
データを細かい要素に分解することでわずか3秒の音声データから人の声の忠実な再現を実現しています。
3秒の音声データだけで、その人の音声に非常に良く似た発話をAIが生成できるだけでなく、音声に感情を交えたり、眠さなどの様々な調整を加えられることが強みです。
3Dモデル生成系AI
Point-E
アメリカのOpenAI社によって開発された基盤モデルです。
Point-Eは、テキストプロンプトから3Dオブジェクトを生成する基盤モデルで、オープンソース化されています。
また、点群データ生成を可能にしており、従来の3Dデータ生成よりも遥かにデータ生成にかかる時間が短くなっている点も特徴です。
DreamFusion
アメリカのGoogle社によって開発された基盤モデルです。
DreamFusionは、テキストから3Dを生成する基盤モデルで、複雑なテキストにも対応しています。
また、生成された3Dをテキストで編集、修正できるのもの特徴です。
まとめ
生成系AIの代表的な基盤モデルについて紹介してきました。
昨今、生成AI技術の進化が目まぐるしいですが、初心者の方向けに引き続き情報を発信していければと思います。