ディープラーニングで研究されている分野 - AI資格ナビ（AI資格の合格を徹底サポート）

E資格の取得を目指しディープラーニングを学ばれている皆さんは、実際にディープラーニングで研究されているのはどういった内容かについてしっかりと説明ができるでしょうか。今回は代表的な研究分野を3つ紹介し、それらを組み合わせたマルチモーダルという考えについても述べていきます。ぜひE資格に向けた勉強の参考にして下さい。

1. 3つの代表的な分野画像認識と自然言語処理、音声処理
2. マルチモーダル学習、ロボティクスへの応用
3. マルチモーダル化するディープラーニング

3つの代表的な分野画像認識と自然言語処理、音声処理

ディープラーニングで研究されている分野の中で最も有名なのは画像認識だと言えるでしょう。画像認識はスマホのカメラなどに使用されているように、画像や動画の中から顔などの対象物を認識、判別する技術ですが、これにはCNNというアルゴリズムが使われています。CNNとはConvolutional Neural Networkの略で、畳み込みニューラルネットワークと呼ばれます。CNNは順伝播型ニューラルネットワークに分類されるネットワークで、順伝播とはフィードフォワードという意味です。点ではなく、領域的に情報を圧縮処理する（畳み込む）ことでより精度の高い判定を可能にするという特徴を持ち、CNNにおけるニューロン間の結合パターンは、動物の視覚野の構造と類似しています。
そのCNNを多層化させることで進化を遂げているのが昨今の画像認識です。多層化したCNNでは、より少ないパラメーターで複雑な処理が可能となります。画像認識はカメラに搭載させることによって医療や防犯設備など様々な場で応用されており、我々の日常にも馴染みあるものになりつつあります。
次に有名な分野としては自然言語処理があります。実用化の例としてはGoogleの機械翻訳などです。自然言語とは、我々が普段話している言語のことで、プログラミング言語などの純粋に論理的な言語と対比させて、自然という形容がされています。自然言語の一番の特徴は、曖昧性です。我々は言語を簡単に使用しているように思われますが、実際には言葉の配列や長さの違いなどによって微妙なニュアンスを出したり、言外の意味を込めたりしています。人間にとってそれは「自然」なことですが、機械にとっては不自然なことです。なぜならそれはプログラミング言語のように正確ではないからです。曖昧に使用された言語から意味を読み解くことを機械にも可能にさせる、それが自然言語処理の目標と言えます。
自然言語処理では、画像認識はCNNといったような特定の手法があるわけではありません。それだけ自然言語の研究は困難を極めているということです。そもそも言語学が自然言語の全てを解明できているわけではないという事実を鑑みても、自然言語処理は壮大なプロジェクトであると言えるしょう。
最後の一つとして挙げられるのが、音声処理です。人間の声を認識、処理する技術のことで、例としてはSiriが有名です。音声処理に使用されるアルゴリズムは回帰型ニューラルネットワーク（通称：RNN）と呼ばれるもので、中でも長・短期記憶（通称：LSTM）が代表的です。RNNはひと続きの入力を処理するため、内部情報を使用でき、動的な振る舞いに対応します。特にLSTMは順伝播型のネットワークと違い、自身にフィードバック結合を有するため、一方向的な単一情報だけでなく全てのデータ配列を処理することが可能なのです。LSTMは音声処理だけではなく、手書き文字認識などの自然言語処理分野にも使用されています。また自動画像キャプション付けなど、CNNとLSTMを組み合わせた研究もあります。以上がディープラーニングの代表的な研究分野です。

マルチモーダル学習、ロボティクスへの応用

さて、先ほどLSTMが音声認識と自然言語処理の両方に活用されていることや、CNNとLSTMを組み合わせた研究があることを述べました。これはある意味当然なことで、音声認識は自然言語の認識と深く関わっていると言えますし、我々の言語使用の場には視覚認識が伴っている場合がほとんどです。我々は一つの情報だけでなく、視覚と聴覚といった複数の情報を同時処理しながら生活しています。機械学習にも同様のことをさせようとするのがマルチモーダルという考えです。
人間の場合、五感と呼ばれる5つのモダリティを複合的に処理することで、より精度の高い情報を手に入れることが可能となっています。これがマルチモーダルです。ディープラーニングにおけるマルチモーダルの端緒は、音声と画像の同時使用でした。例えば唇の動きから音声を読み取るといったものです。これは人間にとっては自然な行動で、視覚によって聴覚の処理を補うことができます。他にも表情と音声を組み合わせた研究や画像にふさわしい音を機械に生成させるといった研究もあります。
ディープラーニングのマルチモーダル化はロボティクスへの応用においても良い効果があります。複合的な情報を処理することでより人間に近い、もしくは人間の能力をある分野で超えるような高度なロボットが誕生するかもしれません。自然言語処理の分野もマルチモーダル的手法によって前進するでしょう。ディープラーニングを語る上でマルチモーダルは欠くことのできない要素となりつつあります。

マルチモーダル化するディープラーニング

今回はディープラーニングの研究分野として代表的なものを3つ紹介しました。またそれらの研究は密接に関係しており、複数の情報を使用することでより高度な結果を目指すというマルチモーダルについても言及しました。マルチモーダルによってロボティクスへの応用も質の高いものとなり、ディープラーニングの研究成果は今後ますます我々の日常に浸透していくと思われます。