G検定の勉強で抑えたいシラバス 【統計編】

G検定の勉強で抑えたいシラバス  【統計編】

機械学習におけるデータの分析・処理は、確率や統計を用いた算出方法が主流となっています。しかし、この2つは数学の学習でも軽く触れる程度の領域であり、特に後者は「統計学」という学問として独立している専門性の高い内容です。本項では、g検定で用いられる統計についてまとめ、勉強で困りそうなところや躓きやすいポイントを重点的に解説します。

G検定における「統計」の概念と必要性について

応用数学の領域に内包されている「確率・統計」。通常であれば数学の一部として軽く触れる程度のもので、専門でなければ結果を出すための簡単な計算式を学ぶ程度です。しかし、g検定においては機械学習のデータ分析・処理に必要となる応用知識であり、最低限の基礎として覚えなくてはなりません。機械学習とは、サンプルを収集させて一定のパターンやルールを発見させ、様々な事象・行動に利用させて予測を行うデータ観測です。
例えば、学習させる機械に自動車の画像という「サンプル」を何枚が用意し、どれが国内産の四輪車であるかという「正誤」を教えることで、国内産の四輪車に共通する「特徴」を発見させるということが出来ます。

そして、このサンプリングに深く関わってくるのが「統計」です。統計とはある事象を調査することで得られる数量データのことで、先の事例で言えば、国内産の四輪車に共通する特徴が該当します。しかし、実際の統計はここまで単純ではなく、そもそも「統計」は様々な分類を統括した概念です。先に述べた事例は統計による観測方法を大雑把にまとめたもので、サンプリングの過程ではデータ解析の精度を上げるために様々な計算・検定が用いられています。統計についての解説を一通り終えたところで、次は統計の領域において本番で困りそうなところをまとめて解説します。

統計の基礎「記述統計」と「推測統計」を簡単に解説

まずは、統計の基礎からおさらいしましょう。機械学習のデータ解析では主に「記述統計」「推測統計」の2つを基本としています。記述統計とは、収集したデータの分散度合い平均値、標準偏差などを計算して分布を解明し、そのデータが示す傾向や性質といった特徴を把握する手法を指します。テストの平均点やクラスの平均身長なども応用したもので、クラスの身長をA組とB組で比較したい場合、ただ身長の数値を羅列しただけでは判断できません。そこで、収集した2組の身長から平均という「指標」を導き出すことで、容易に比較することが可能になります。

しかし、記述統計にも限界があり、(解析したい事象の)全データを収集できないとも用いることが出来ません。例えば、「日本全国の平均年収」を記述統計で導き出す場合、全国民にアンケート調査を取ってデータを収集する必要がありますが、まず現実的に不可能です。故に、「日本全国の年収データを」作ることが出来ず、分析するためのデータがない以上は記述統計も使えないのです。そこで用いられるのが推測総計で、この方法では収集した一部分のデータを分析して全体を予測します。

推測統計では「収集したデータは大きな母集団の小さな標本である」と考え、収集したデータ全体から結果を出す記述統計とは異なり、サンプル(標本)の一部分からデータ(母集団)推測する方法です。記述統計では出来なかった日本全国の平均年収を導き出す場合、まず日本全体の人口から、分析に最低限必要なサンプルを収集します。そして、収集したサンプルから日本全国の平均年収というデータを推測し、大体の数字を導き出すという事が可能です。この2つの基礎は、機械学習やディープラーニングに関する「技術的な設問」において必須となるので必ずおさえましょう。

統計によるデータ解析の要「尤度比検定」とは何か?

統計で難易度の高い分野が「尤度比」。尤度比とは、統計学においてある前提条件に従って結果を出した場合に、逆に(観察結果から見て)前提条件が「Xであった」と推測する「尤もらしさ」を表す数値を、その「X」を変数とする関数として捉えたものです。医学の現場などで活用され、「検査では陰性だったが疾患があった」というケースへの対策として、診察の判断が正しいものかどうかという正誤の確率を導き出す際に用いられます。
例えば、ある疾患において診察したら陰性であったと結果が出た際に、感度(陽性になる確率)などのデータから「本当に陰性であったのか」という判断の正誤をする、という具合に用いられます。

この尤度比を統計量として用いる統計学的検定の総称が「尤度比検定」です。サンプルの「尤もらしさ」を比べて、尤もらしい結果―つまり正解にほぼ近い結果を出す検定法です。先に述べた疾患の検査に例えると、「陽性であった」という判断がどれだけ正しいものであるか、という正解の確率を導き出すことができます。このように、尤度比検定は機械学習によるデータ解析の結果が本当に正しかったのか、正しい判断に近いものかということを明らかにするために用いられます。統計学の概念に基づいた検証の手法であり、確率・統計の集大成となる応用知識となるため、応用数学の中でも特に躓きやすいポイントなので注意しましょう。

「統計」は機械学習のために必要な概念

統計による機械学習は、人間の計算では決して割り出せない結果を出すことができます。例えば、人間による認識・判断では限界があった画像認識・翻訳などが当てはまります。機械学習による分析の最たるものが自動運転のAIであり、今後も機械が「学ぶ」ことで我々人間は多くの恩恵を享受すると考えられています。機械が正しく「学ぶためにも、「統計」の概念は必要なのです。