AIの知識が必要なE資格の深層学習の下層単元である深層学習の適応方法について

E資格に合格するためには、深層学習に関する幅広い知識が必要です。ニューラルネットワークを利用した深層学習の技術は、さまざまな分野に応用可能ですが、主に画像の識別などに活用されています。E資格ではこうした深層学習の適応方法に関する知識も広く求められていて、受験を考えている人は、しっかりとシラバスの内容を理解し試験対策をする必要があります。ここでは、E試験の受験勉強に欠かせない、深層学習の適応方法について詳しく解説します。

1. 画像を認識する技術への応用
2. 画像の局在化や検知、セグメンテーションへの応用
3. 自然言語処理への応用
- 3.1. ベクトルで分析するWordEmbedding
- 3.2. 最新の技術であるTransformer
4. Text to SpeechとWaveNet
- 4.1. 自然な音声合成を可能にしたWaveNet
5. スタイル変換とpix2pix
- 5.1. ニューラルネットワークを使用するpix2pix
6. 深層学習を囲碁に応用したAlphaGo
7. 幅広いジャンルに応用されている深層学習の技術

画像を認識する技術への応用

層の多いVGG

VGGはオックスフォード大学が研究したネットワークです。2014年におこなわれたネットワークの技術を競う大会に出場するために開発されたネットワークで、オックスフォード大学のグループはこの大会で優勝しました。VGGとはVisual Geometry Groupの略語で、大会に出場した同じ大学のグループの名前です。局所受容野が3×3のサイズになっているのがこのネットワークの特徴ですが、これは通常の畳み込み層よりも小さいサイズです。その分、畳み込み層を多くすることによって、画像認識の精度を上げています。

22の層を持つGoogLeNet

GoogLeNet は畳み込みニューラルネットワークの一種で、全体で22層の畳み込みネットワークを持っています。特定のデータセットで学習させたネットワークを読み込むことができる能力があり、これらのデータセットを利用することで、画像分析の精度を向上させることができます。

152の層を持つResNet

ResNetとはResidual Networkのことで、畳み込みニューラルネットワークを改良したものです。画像認識の精度を競う国際的な大会で優勝したネットワークです。従来のネットワークよりもさらに正確な画像認識を可能にしたのは、畳み込みの層の大幅な増加です。ResNetでは合計で152層を使用して畳み込みネットワークを構成しています。shortcut connectionという特別な計算方法が使用されているのもResNetの特徴で、ResNetというネットワークの名称もこの計算の方法に由来しています。

計算量の少ないMobileNet

MobileNetは2017年にGoogleが発表したネットワークです。各種のモバイル端末上で深層学習をおこなうことができるように、開発されたネットワークです。MobileNetが従来の畳み込みネットワークと大きく異なっているのは、できるだけ少ない計算量で情報の処理ができるようにしたことです。そのために、モバイル端末などの機械の性能が限られているハードウエアでも、効率的に画像認識などができるようになっています。

ResNetをもとに作られたDenseNet

DenseNetはResNetをもとにして作られたネットワークで、ResNetと同じような特徴を持っています。画像認識の精度を上げるために非常に多くの層を使用していることも、ResNetと共通した特徴です。ResNetと異なっているのは、ResNetがshortcut connectionを使用してディープラーニングを効率的におこなっているのに対し、DenseNetでは、各層の間の入力と出力の関係が単純化されていることが特徴になっています。

画像の局在化や検知、セグメンテーションへの応用

ニューラルネットワークを活用したFasterR-CNN

FasterR-CNNは、Microsoftによって2015年に開発された、特定のオブジェクトを検知することができるアルゴリズムです。FasterR-CNNの開発は、ディープラーニングの適用の可能性を大きくひろげました。FasterR-CNNがそれまでの画像認識の方法と大きく異なっているのは、ニューラルネットワークを活用していることです。深層学習を取り入れることで、画像に写っている特定のオブジェクトと、その後ろに写っている背景部分をより正確に認識できるようになりました。

画像分析の速度が速いYOLO

YOLOは、画像認識の速度を向上させるために開発された技術で、2016年に公開されました。YOLOとは、「You Only Look Once」という意味で、非常に速い速度で画像の処理ができます。FasterR-CNNよりもさらに画像認識の速度が向上していて、1枚あたりの画像の処理時間は平均して20ミリ秒前後です。これは、1秒あたり40枚以上の画像を処理できる能力です。FasterR-CNNと比較すると、5倍以上速い処理速度を持っています。畳み込みネットワークを使用することで、画像に写っている物体の位置を、短時間で正確に分析することができます。

デフォルトボックスを使用するSSD

SSDは高速度で画像処理をおこなうために開発されたアルゴリズムです。SSDは、デフォルトボックスというシステムを使用して画像の分析をおこなうのが、大きな特徴です。SSDを利用して画像の処理をおこなう場合、コンピュータは一枚の画像の上に8732個のデフォルトボックスを置いて、画像の分析をします。デフォルトボックスは形状や大きさの異なるものが一緒に使われていて、このボックスの違いによって、正確な画像分析が可能になっています。

自然言語処理への応用

ベクトルで分析するWordEmbedding

自然言語処理の正確性を向上させるために開発された技術がWordEmbeddingです。自然言語とは人間が日常会話で使用している言語のことで、コンピュータ言語と区別されるものとして扱われています。自然言語がコンピュータ言語と大きく異なっているのは、曖昧な部分が存在することですが、そのためにコンピュータが人間の言葉を分析するのは難しいこととされていました。このような状況を大きく変えたのが2010年代に開発されたWordEmbeddingで、言語処理に畳み込みネットワークを使用しているのが、従来のシステムと大きく違っている部分です。言葉の意味を、複雑でないベクトルを使用して表すことが可能なことが、WordEmbeddingの画期的なところです。ベクトルにした言葉をそれぞれ計算に使用することにより、文章の全体的な意味を分析できます。

Text to SpeechとWaveNet

自然な音声合成を可能にしたWaveNet

WaveNetは音声合成の技術です。従来の音声合成とは一線を画した、人間の話す声に非常に近い音声をコンピュータで作ることができます。Text to Speechというテキストから音声を作製した従来の方法と大きく異なっているのは、PixelCNN3をもとに設計された、高度なニューラルネットワークであることです。

スタイル変換とpix2pix

ニューラルネットワークを使用するpix2pix

pix2pixは畳み込みニューラルネットワークを使用して、画像の変換をおこなう技術です。これはGANに分類されるタイプのネットワークで、GANとは敵対的生成ネットワークのことです。JDLAのE試験対策では、こうした難易度の高い知識の学習も必要になります。

深層学習を囲碁に応用したAlphaGo

ディープラーニングの技術をゲームの分野にまで応用させたのが、AlphaGoです。AlphaGoは、囲碁の人工知能プログラムで、Googleによって開発されました。囲碁は将棋やチェスと比べてコンピュータでは扱いにくかったのですが、ニューラルネットワークの技術を活用することによって、高度な深層学習の能力がある囲碁のプログラムが作製可能になりました。検定を受検する際には、講座などを活用することで、受験に必要な試験をまとめて学習できます。

幅広いジャンルに応用されている深層学習の技術

ニューラルネットワークを使用した深層学習の技術は、さまざまな分野で利用されています。特に多くのシステムで使用されているのが画像認識の技術で、ニューラルネットワークを使用することで、従来よりも短時間で精度の高い画像分析ができるようになりました。自然言語の処理や音声出力にも、ディープラーニングの技術は応用されています。