14  実社会での応用

注意

このページの内容は大部分が書きかけです。文の流れが整っていなかったりまとまりがないことがあります。

実社会でAIがどのように応用されているかを紹介します。

AIの応用は、大きく分けて以下の3つに分類できます。

これらの応用について、

まずはAIが得意とする分野とその理由を解説します。

なお、ここでAIとは、現在の機械学習領域で主流となっている深層学習を指して使います。

14.1 深層学習が得意とする分野

深層学習が得意とする分野は、従来の機械学習手法が得意とする分野とは異なります。深層学習は、高次元かつ複雑なデータに対しても効果的に学習できることが特徴です。これには、画像や動画、音声、自然言語など、実社会で頻繁に出現するデータが含まれます。深層学習の能力を活用することで、画像認識、音声認識、自然言語処理、機械翻訳など、多岐にわたる応用が可能となり、現代社会において不可欠な技術となっています。

深層学習が複雑なデータの表現を学習できる理由の一つとして、深層学習がデータの特徴を自動的に抽出する能力があります。例えば、画像のデータを扱う場合、従来の機械学習手法では、画像の輝度やエッジなどの情報を特徴量として抽出する必要がありました。しかし、どのような特徴量を抽出すれば良いかは、データの分布によって異なります。データの分布に依存性がある場合、特徴量の抽出には専門家の知識が必要となることが多かったです。

一方、深層学習では、データの特徴を自動的に抽出することが可能です。深層学習モデルは、複数の隠れ層から構成され、隠れ層のニューロンがデータの特徴を学習します。階層的な特徴表現を獲得することができるため、より複雑なデータの表現や異なるレベルの抽象化が可能となります。特徴抽出は、モデル自体が学習の一部として行われるため、事前の特徴量エンジニアリングが不要となります。

深層学習では、例えば、画像データでは各ピクセルが特徴として扱われ、画像全体の情報を抽出します。また、動画データではフレームごとの情報や時間的なパターンを学習し、音声データでは音響特徴を解析します。さらに、自然言語処理では単語や文の意味を表現し、文脈を理解するためのモデル構築にも利用されます。

深層学習が得意とする分野は、以下の通りです。

  • 画像認識: 画像の分類、物体検出、セグメンテーション
  • 音声認識: 音声の認識、音声の合成
  • 自然言語処理: 単語の分散表現、文の生成、文脈の理解

これらの分野で扱うデータはいずれも、高次元かつ複雑なデータです。このようなデータは、データが得られる前からある程度、どのようなデータ構造になるかが分かる構造化データに対して、非構造化データとして呼ばれます。非構造化データは、データの特徴を抽出することが難しく、従来の機械学習手法では、データの特徴を表現することが困難でした。しかし、深層学習では、データの特徴を自動的に抽出することが可能となり、非構造化データに対しても効果的に学習できるようになったことが、現在のAI社会を支えています。

14.1.1 画像認識

画像認識は、画像の特徴を抽出し、その特徴を元に画像の分類や物体検出、セグメンテーションなどのタスクを行います。

  • 画像の分類: 画像に写っているものが何かを判別する
  • 物体検出: 画像に写っている物体の位置とクラス(またはラベル)を同時に推定する
  • セグメンテーション: 画像の各ピクセルに対して、そのピクセルが属するクラスを推定する

画像認識は社会の様々な場面で利用されています。例えば、画像の分類では、画像検索や画像の自動整理、画像の自動キャプション生成などに利用されます。また、セグメンテーションでは、医療画像の解析や自動運転などに利用されています。

14.1.2 音声認識

音声認識は、音声の特徴を抽出し、その特徴を元に音声の認識や音声の合成などのタスクを行います。自動読み上げや音声検索などに利用されています。

14.1.3 自然言語処理

自然言語処理は、自然言語、すなわち人間が日常的に使う言語をコンピュータで処理する技術です。自然言語処理は、単語や文の意味を表現し、文脈を理解するためのモデル構築に利用されます。自然言語処理は、機械翻訳や文章要約、チャットボットなどに利用されています。

14.2 生成系AI

新しいデータや情報を作り出す能力を持ったAIのことを指します。

これは一般的には、学習データからパターンやルールを抽出し、それを基にして新しい内容を生成します。

学習には膨大な量のデータが必要となり、大規模言語モデルと呼ばれる

生成系AIは、様々な領域で応用されています。例えば、画像生成では、特定の人物の写真を生成したり、絵画やイラストを生成したりします。また、自然言語処理では、新しい文章や物語を生成するために用いられます。さらには、音楽や映像などの芸術的なコンテンツの生成、3Dモデルの生成、医療データの合成など、多岐にわたる領域での応用が研究されています。

テキストや写真、動画、コード、データ、3D画像などの出力を生成・作成を可能とします。

2022年は生成系AIの年

14.2.1 生成系AIを支える技術

自然言語処理や画像認識などの分野で使われる生成系AIにおいて重要な技術を紹介します。

  • 注意機構
  • Transformer
  • 強化学習
  • 大規模言語モデル
    • 事前学習
    • ファインチューニング

14.2.1.1 注意機構

注意機構(attention)は、入力として与えられたデータの一部に注目し、その注目度合いに基づいて重みを割り当てます。これにより、より重要な情報に高い重みが与えられ、モデルは注目すべき部分により焦点を当てることを可能にします。重要な情報とは、例えば、画像の中で対象物が写っている領域や、文章の中で主語や述語などの単語を指します。注意機構は特に系列データを扱う際に有用です。系列データとは、時系列データや自然言語など、順序を持ったデータのことを指します。画像におけるピクセルや音声における波形なども、時系列データの一種とみなすことができます。

注意機構は、モデルが入力の一部に重点を置くことで、長い文や複雑なデータにおいてもより効果的な処理が可能となります。このように、注意機構は情報の重要性を明示的に扱い、モデルの性能向上に寄与する重要な手法の一つです。

14.2.1.2 Transformer

注意機構を利用したモデルにTransformerと呼ばれるものがあります。Transformerは、自然言語処理の分野で登場しましたが、それ以上に、生成系AIの分野に大きな影響を与えたモデルです。このモデルは、それまでのLSTMやGRUといったリカレントニューラルネットワークとは異なり、データを系列ではなく集合として扱うことで並列化を可能にしました。

Transformerモデルの主要な要素は以下の通りです。

  • 自己注意メカニズム(Self-Attention)
  • 位置エンコーディング(Positional Encoding)
  • エンコーダとデコーダのアーキテクチャ

Transformerモデルは非常に強力であり、そのアーキテクチャは多くの最新のNLPモデル(GPT-3、BERT、PaLMなど)の基盤となっています。

一部の生成系AIは、強化学習を用いて学習を行います。これは、AIが試行錯誤を通じて最適な行動を学び、報酬(行動により得られる収益)を最大化するように設計された学習の枠組みです。生成系AIにおける強化学習の一つの例として、AIが生成したテキストの品質を評価し、そのフィードバックを用いてAIのパフォーマンスを改善するという方法があります。具体的には、AIが生成したテキストに不適切な表現が含まれていないかを人間が評価し、その評価をAIにフィードバックします。AIは、フィードバックを受け取ることで、不適切な表現を含まないより良いテキストを生成するように学習します。

14.2.2 マルチモーダルAI

マルチモーダルAIは、複数のモーダル(入力データの種類)を扱うAIのことを指します。例えば、テキストをもとに画像を生成するAIや、画像の情報を文章化するAIなどがあります。

従来のAIシステムでは、主に単一のモーダルに基づいて処理や判断が行われていました。一方で実社会の多様な問題を解決するには、複数のモーダルを扱う必要があります。

14.3 現在の社会が抱えるAIに対する課題

AIの注目度が高まる一方で、AIに対する課題も多くあります。それはAIが社会に普及し始めて間もないことが原因の一つです。AIが社会へ及ぼす影響、特に負の影響について十分な議論や法整備が行われていないのも現状です。上手に使いこなせれば便利な一方、使い方を誤れば大きな被害をもたらす可能性があるため、AIの社会への普及には、慎重な議論が必要です。

14.3.1 AIの社会への普及に伴う課題

AIの社会への普及に伴う課題として、以下のようなものがあります。

  • 仕事の自動化による失業
  • 個人情報の漏洩
  • 差別や偏見の増大
  • 著作権の侵害
  • フェイクニュースの拡散