AIで大切なE資格のシラバスに含まれる応用数学における情報理論について

E資格の試験範囲は多岐にわたりますが、その中の1つに応用数学が含まれています。応用数学は、情報の要といえるデータを扱うすべての分野で必要な学問です。

また応用数学はコンピューターと切っては切れない関係なので、エンジニアとして活躍するためには是非とも学んでおきたいものです。ところで、情報理論は応用数学の1つの分野ですが、果たしてどのような理論なのでしょうか。

1. そもそも情報理論とはどんなものか
2. 情報理論におけるエントロピーとは
3. 自己情報量は自然対数で表します
4. 相互情報量とはどんなものか
5. KLダイバージェンスについて
6. 情報理論の基礎を学ぼう

そもそも情報理論とはどんなものか

応用数学というと何やら難しいイメージがあるかもしれません。応用という名前がついているように、数学的知識を他分野に適用することを目的とした数学のことです。

関連する分野は数値解析やアルゴリズムなど、非常に多岐にわたっています。特にコンピューターが出現したことで、次々と新しい応用分野を生み出しています。また、応用数学を身につけることで、データサイエンティストとして活躍することができるでしょう。

ところで、応用数学には情報理論という分野も含まれています。

情報理論とは、情報とは何かを定義して、数学的知識を用いながらより良い扱い方を考える学問のことです。情報理論には大きく3つのジャンルがあります。

1つ目は、情報量そのものをどうやって定義するかについて考える情報に関する数学的理論です。

2つ目は、扱っている情報をいかに効率化して送受信させるかというジャンルであり、これを符号理論などと呼んでいます。

3つ目は、送られた情報にノイズが含まれていた場合、これをどうやって減らすかを考える誤り検出と呼ばれるものです。

ここでは1つ目の情報に関する数学的理論について取り上げますが、エントロピーや自己情報量や相互情報量などがキーワードとなります。

情報理論におけるエントロピーとは

物理を勉強していた人ならばエントロピーという言葉を聞くと、熱力学のことをイメージする人がいるかもしれません。熱力学では不規則さや曖昧さをあらわす概念として使われますが、情報理論の分野でも同じ概念を持つワードとして使用されます。

情報理論の分野で用いるエントロピーとは、ある情報源がどれだけの情報を運んでいるかを示す概念です。もし、与えられた情報が不規則であるほど、平均すると多くの情報量を運んでいるということになります。

では、情報の不規則さとは一体何なのでしょうか。世の中には色々な情報がありますが、確率が高いことを知らされても、そこから得られる価値は低いです。

例えば、「私には弟が1人いて、弟は男性です」という情報があった場合、弟が男性であることは確率100%の情報であるため、得られる情報量は0となります。ところが「私には弟が15人います」という情報であれば、弟が15人もいる確率はかなり低いため、得られる情報量は大きくなります。

このように、確率の低い驚くような情報がたくさんあれば、情報の不規則性が増すといえます。そして不規則性が増すほど、多くの情報を得られることになります。

自己情報量は自然対数で表します

発生する確率が低い珍しい事柄が分かるほど、得られる情報量が多いことは先述した通りです。確率pで起こりうる事柄が生じたことを知った際に、得られる情報量 のことを自己情報量と呼び、I(p)と表します。

そしてI(p)は、-log a P(x)(aはlogの底であり、1より大きな定数とします)として定義されます。logの底に据える定数は何を選んでも良いのですが、2を選ぶことが多く、その場合の情報量の単位をビットといいます。

そうすると、自己情報量I(p)=-log 2 P(x)となるのです。logのことを自然対数といいます。自然対数には、log 2 (P(x)×P(y))=log 2 P(x) + log 2 P(y)という性質があります。

どういうことかというと、自然対数は掛け算を足し算に変えられるという性質があるということです。そうすると数学的に扱いやすくなるため、自己情報量を自然対数で表しているのです。

相互情報量とはどんなものか

ところで、情報量の概念には相互情報量と呼ばれるものがあります。先述した「私には弟が15人います」という驚きの情報を例にとって説明すると分かりやすいかもしれません。

この情報に対して例えば、「この人は一夫多妻の国の王子様だ」という関連する既知の情報があったとします。すると「私には弟が15人います」という情報に対する驚きは少なくなるはずです。

つまり「私には弟が15人います」という情報に対して、関連する既知の情報があるとないとでは驚きに差が出てきます。この差が相互情報量なのです。

KLダイバージェンスについて

最後にKLダイバージェンスについて取り上げてみます。KLダイバージェンスとは、カルバック・ライブラー情報量の略称であり、相対エントロピーと呼ばれることもあります。

簡単に定義すると、2つの確率分布の差異を測る尺度のことです。先述したエントロピーというのは、とある情報源がどれだけの情報を運んでいるかを示す概念でありますが、これを統計学的に表すために確率分布を用いることがあります。

つまり、それぞれのエントロピーが2つの確率分布で表され、それらがどれくらい異なっているかを表すのがKLダイバージェンスなのです。

情報理論の基礎を学ぼう

情報理論を一言でいえば、情報量をどのように定義しどのようにして扱うかということです。そこに数学的な知識を組み込んで、どうやったら良い扱い方ができるかを考えていくことになります。

そのためにはエントロピーの概念や、基本的な数学の知識を身につける必要があります。特に概念を理解するためには、分かりやすい例えを活用すると良いかもしれません。