確率分布と頻度分布の関係
みなさんこんにちは。YYです。
今回は、確率分布と頻度について話していきたいと思います。
当然のことですが、確率が1/6だからと言って、6回さいころを投げれば必ず1回1の目が出るかと言われるとそんなことはありません。しかし、60000回さいころを振れば、そのうちおよそ10000回は1の目が出るはずです。
しかし、確率論の公理を勉強された方ならわかると思うのですが、上のような感覚的な”確率”と、数学で定義されている確率には、隔たりがあります。ところが、一般に(公理的)確率がであるような事象を伴う試行の回数を大きくしていくと、その事象が起こる頻度はに漸近します。この点において、私たちが持っている確率の感覚と、公理的に定めた確率は一致します。これは大数の法則から割と簡単に導出できることなのですが、このことについて書いてない本も結構あります。今回は特に、確率密度関数と頻度密度関数(こんな呼び方はしないかもしれませんが)が一致するという話をします。
統計力学や量子論を勉強しているときに、思えばこの問題をちゃんと考えたことが無かったことに気が付いたので、もしかすると同じような人がいるかもしれないと思い、ここに書いておきます。
間違いがあれば指摘をお願いします。
確率変数と確率分布の記法の整理
考えている全事象を含む集合を標本空間といい、
確率変数を、試行を特徴づける変数とします。
事象が起こる確率をで表します。
が離散的なとき、となる確率を確率関数で表し、その期待値で表します。
が連続的な時は、となる確率を確率密度関数を使って、で表します。期待値はです。
また、累積分布関数をで定義します。
以下、簡単のため確率分布と確率関数及び確率密度関数を同一視します。
確率変数を、確率分布からのランダムなサンプルとするとき、と表します。(independently and identically distributed)
また、期待値,分散のある分布からのランダムサンプルを、と表します。
大数の法則の主張
大数の法則と呼ばれる法則には、実は2種類あります。大数の弱法則(証明は簡単)と大数の強法則(証明は難しい)です。正直、大数の強法則と弱法則の違いがよく分かっていないのですが、参考のため載せておきます。大数の弱法則は強法則に含まれるらしいです。
大数の法則の仮定は、弱法則、強法則ともに同じで、確率変数で、分散であることです。
ここでは証明は省きますが、弱法則の証明ならほとんどの確率・統計の本に載っています。
大数の法則は、どちらも、標本平均と期待値の関係を示した法則です。(も確率変数であることに注意)
大数の強法則
標本平均は期待値に概収束する。
即ち、
ベルヌーイ分布の例
ここで、我々が考えうる最もシンプルな確率分布の一つ、ベルヌーイ分布を考えたいと思います。
ベルヌーイ分布とは、確率変数に対し、
という確率を与えるような分布です。(ただし)
より、大数の法則の仮定を満たします。
ベルヌーイ分布からのランダムなサンプルを、でとると、標本平均はでに確率収束します。
頻度分布と確率分布の対応
今までみてきたように、大数の法則は標本平均の標本数を増やした挙動についてしか教えてくれず、標本数を増やしていった時の分布の漸近的挙動の情報は含まれていません。しかし、実はこれだけで頻度分布が確率分布に近づいていくことが分かります。
確率分布に従う確率変数をランダムに取ります。すなわち、
ここで、を(添え字によらず)任意に取り、次のような確率変数の変換を行います。
するとは、
なるベルヌーイ分布からのランダムサンプルになっています。(ここで、は累積分布関数)
ここで、個のサンプルの内、を満たすようなの個数を、とし、頻度を、
で定義します。
であることから、上述のベルヌーイ分布に対する大数の法則により、
が成立します。
つまり、が十分大きければ、データが以下の値を取るような頻度は、累積分布関数であるとほぼみなせます。
ランダムサンプルがの間にある値をとるような頻度は、
となり、確率密度関数は、頻度の密度を表していると考えることが出来ます。
おわりに
この証明の肝は、公理的に定められた確率を、ベルヌーイ分布に従う確率変数に帰着させるところにあります。ベルヌーイ分布というある種簡単すぎる確率分布が、一般の確率分布の性質の証明に深くかかわっているのは、驚きだと思います。