E資格の機械学習分野は「機械学習の基礎」と「実用的な方法論」の2つの項目で構成されています。中でも「機械学習の基礎」分野で出題される問題はその名の通り機械学習を学習するにあたって大切な基礎であり、深層学習分野を学習するにあたって必要な内容も出題されます。そこでここでは、E資格機械学習分野の「機械学習の基礎」について解説します。
E資格のシラバスにある機械学習の基礎とは
JDLA(日本ディープラーニング協会)が運営しているAI検定はG検定とE資格の2種類です。G検定は職種に関係なくAI(人工知能)に関する知識を活かせるジェネラリスト、E資格はAIを実装できるレベルのエンジニアを育成する目的で運営されています。G検定・E資格の例年の合格率はどちらも6割~7割程度です。しかし、E資格を受験するにあたって必要なJDLA認定講座の受講料などの関係からG検定の方が受験者数が多い傾向があります。また、G検定は学生から社会人まで、職種も様々な人が受験しているのに対し、E資格の受験者の多くはAI開発・研究に携わっている人、万が一携わっていなくても現役でエンジニアとして働いている人が中心です。そのため、受験者層が大きく異なり、同じ程度の合格率でもE資格の方が難易度が遥かに高いと言えるでしょう。
そんなE資格の試験では応用数学・機械学習・深層学習の3つの分野で構成されています。そして機械学習分野は先ほど解説したように「機械学習の基礎」「実用的な方法論」の2つの項目が出題され、機械学習の基礎で出題されるのは機械学習どころかAI開発の基礎が中心です。そのため後の深層学習分野の学習に取り組むにあたっても必要な知識であり、E資格に合格した後のことを考えると、この分野はしっかり取り組んで仕事に活かせるレべルにしたいところでしょう。以下の段落では「機械学習の基礎」で出題される各項目について解説していきます。
学習アルゴリズムについて
機械学習に関連するコンピュータプログラムは経験Eから性能指標Pを高めたタスクTを実行することで、データを予測できるとされています。T・P・Eと並べられることが多いですが、実際の機械学習の流れはE・T・Pなのでこの流れに沿って解説していきます。
経験E
経験Eとは、機械学習を実行するにあたって必要な過去のデータのことを言います。一般的にこのデータはデータストレージに格納されています。
タスクT
経験Eから学習する段階のことをタスクTと言います。タスクTは抽象化と汎化の2つに分けることができ、抽象化では経験Eにあたるデータをモデリングするプロセスのことを言い、汎化の段階でモデリングしたデータの共通する部分を見つけます。機械学習においてはこの汎化の段階が最も重要な過程と言えるでしょう。
性能指標P
性能指標Pは評価尺度Pやパフォーマンス性能Pなどと言われることもあります。性能指標Pでは、モデルの精度や誤差率を測定し、タスクをどれくらい達成できているか評価します。
能力、過剰適合、過少適合について
機械学習における能力とは「汎化性能(汎化能力)」のことを言います。汎化性能とは、経験Eとして与えられたデータに加え、未知のデータに対しても正しく予測することができる能力のことを指します。しかし、機械学習でデータを取り扱っていると、テストデータに対して適合できないことがあります。
これを過剰適合もしくは過適合と言い、この場合、モデルの自由度が高すぎる、媒介変数が多すぎるなどといったことが原因となっていることが多いです。この過剰適合の対義語が過少適合もしくは過小学習であり、これはモデルの容量が小さいなどして、上手く学習できない状態のことを言います。
ハイパーパラメータについて
ハイパーパラメータとは機械学習において、アルゴリズムの挙動を制御するパラメータのことを言います。例としては学習率などが挙げられ、機械学習アルゴリズムにおいてハイパーパラメータの調整を行うことがタスクの性能を向上させると言われています。
検証集合について
先ほど解説したハイパーパラメータの最適化を行う際に用いられるのが検証集合です。この項目では検証にはどんなものが使われるか、学習データとテストデータを分けるのにどんな手法を用いるかについて出題されます。
学習データ、検証データ、テストデータ
検証に用いられるデータが学習データ・検証データ・テストデータの3つです。それぞれ、パラメータを学習するためのデータ、モデルを選択するためのデータ、性能を測定するためのデータという役割を持っています。
ホールドアウト法
ホールドアウト法ではデータセットにあるデータを学習データとテストデータに分けてモデルの精度を確かめます。しかし、ホールドアウト法は学習用のデータが多いと汎化性能の評価制度が落ち、逆にテスト用のデータが多いと学習の精度が落ちるという欠点があるので利用する際に注意が必要とされています。
k-分割交差検証法
k-分割交差検証法はクロスバリデーション法とも言われています。この方法では、k個に分割したデータのうち1個をテストデータとし、残りを訓練用データとしたうえで、テストデータと学習データを繰り返します。そしてk回検証を行い、その結果の平均によってモデルの精度を確かめます。この方法は全てのケースでテストを行うことから、特にデータの数が少ない時に向いている手法とされています。
最尤推定について
最尤推定は最尤法やMLEとも言われ、機械学習においては与えられたデータから確率分布の母数を点推定する手法のことを言います。そして最尤推定を行うにあたって尤度という言葉が出て来ますが、尤度とはΘを仮定したときにサンプリングされた標本が得られる確率のことを言います。そして最尤推定においては尤度を最大にできる方法を求めます。
条件付き対数尤度と平均二乗誤差
条件付き対数尤度は、モデルの最適化基準として用いられる性能指数のことを言います。パラメータを2つに分割し、片方のグループを正しい、もう片方のグループを誤差の原因とします。そして、正しいグループに条件づけられた誤差の原因となるグループの対数尤度を条件付き対数尤度と言います。また、もう1つの最適化基準として使える性能指数が平均二乗誤差であり、統計学における標準偏差の公式にて求めます。
教師ありアルゴリズムについて
機械学習は大きく分けると教師あり学習・教師なし学習・強化学習の3つに分けることができます。教師あり学習は入力されたデータの規則を教えたうえで答えを見つけ出す手法であり、回帰や分類は教師あり学習に分類されます。この教師あり学習にはどんなアルゴリズムが用いられているのか見ていきましょう。
ロジスティック回帰
ロジスティック回帰は「勝ちと負け」など、選択肢が2つしかない予測において、ロジスティック曲線を用い、どちらか一方の選択肢になる確率を求めます。
サポートベクトルマシン
複数あるデータを2つのグループに分類する際、境界線から一番近いデータと境界線のマージンの輪が最大になるようにする手法のことを言います。この手法により、精度の高い分類が可能となります。
最近傍法、k近傍法
k近傍法はクラス判別に用いられる手法であり、学習データをベクトル空間上にプロットしたうえでk個のデータを選び、そこから多数決で所属するクラスを決めます。また、kが1だった場合は最近傍法とも言われます。
教師なしアルゴリズムについて
教師あり学習では規則をコンピュータに教えたうえで答えを求めていましたが、教師なし学習では規則性をコンピュータ自身に見つけさせる作業を行います。それでは、教師なし学習に用いられるアルゴリズムを見ていきましょう。
主成分分析
教師なし学習では、次元を減らすことでデータの関係性をわかりやすくします。そこで次元削減に用いられるのが主成分分析です。主成分分析では高次元データの分散が最大になる方向を見つけ、射影することで次元を削減することに成功しています。
k平均クラスタリング
クラスタリングの手法はたくさん存在しますが、その中でも代表格なのがk平均クラスタリングです。この手法では、データをk個のクラスタに分けることができると仮定したうえで、変更を受けなくなるまでクラスタの重心の更新を繰り返し、クラスタの割り当てを実行します。
確率的勾配降下法について
機械学習においては最適化が欠かせませんが、パラメータ空間が複雑になればなるほど難しくなります。そこで用いるのが確率的勾配降下法であり、この方法では学習データの中からランダムに1つのデータを取り出し、誤差を計算してパラメータを更新します。どうしてもランダムでデータを取り出すことから、最短ルートで答えを求められないというデメリットはありますが、1つの学習データしか取り扱わないので計算が早い、また、最適解にたどり着きやすいというメリットもあります。
深層学習の発展を促す課題について
深層学習は日々新しい技術が生まれ、更新されています。しかし、まだまだ発展段階なので、課題も多く抱えています。そこで深層学習の発展を促す課題について見ていきましょう。
次元の呪い
どうしても次元が高くなればなるほどデータも複雑になります。それによって学習が困難になってしまうことを「次元の呪い」と言い、この問題は主成分分析などを用いて次元削減を行ったり、説明変数の中から必要なものだけを選んだりすることで対策できます。
徹底的に対策をして合格を目指そう!
E資格の出題範囲の中でも「機械学習の基礎」で出題される内容を理解できていないと、その後の「実用的な方法論」や深層学習分野の内容も理解が難しくなってしまいます。E資格の学習をするにあたって基本中の基本となる部分なので、JDLA認定講座の教材などを用い、各項目の内容をしっかり理解できるまで学習に取り組みましょう。