確率分布と頻度分布の関係

みなさんこんにちは。YYです。
今回は、確率分布と頻度について話していきたいと思います。
当然のことですが、確率が1/6だからと言って、6回さいころを投げれば必ず１回1の目が出るかと言われるとそんなことはありません。しかし、60000回さいころを振れば、そのうちおよそ10000回は1の目が出るはずです。
しかし、確率論の公理を勉強された方ならわかると思うのですが、上のような感覚的な”確率”と、数学で定義されている確率には、隔たりがあります。ところが、一般に（公理的）確率が $p$ であるような事象を伴う試行の回数を大きくしていくと、その事象が起こる頻度は $p$ に漸近します。この点において、私たちが持っている確率の感覚と、公理的に定めた確率は一致します。これは大数の法則から割と簡単に導出できることなのですが、このことについて書いてない本も結構あります。今回は特に、確率密度関数と頻度密度関数（こんな呼び方はしないかもしれませんが）が一致するという話をします。
統計力学や量子論を勉強しているときに、思えばこの問題をちゃんと考えたことが無かったことに気が付いたので、もしかすると同じような人がいるかもしれないと思い、ここに書いておきます。
間違いがあれば指摘をお願いします。

確率変数と確率分布の記法の整理
大数の法則の主張
頻度分布と確率分布の対応
おわりに
参考文献

確率変数と確率分布の記法の整理

考えている全事象を含む集合 $\Omega$ を標本空間といい、
確率変数 $X$ を、試行 $\omega\in\Omega$ を特徴づける変数とします。
事象 $A$ が起こる確率を $P(A)$ で表します。
$X$ が離散的なとき、 $X=x$ となる確率を確率関数 $p(x)$ で表し、その期待値 $\langle X\rangle:=\sum_xxp(x)$ で表します。
$X$ が連続的な時は、 $x_1\leq X\leq x_2$ となる確率を確率密度関数 $f(x)$ を使って、 $\int_{x_1}^{x_2}f(x)dx$ で表します。期待値は $\langle X\rangle:=\int_{-\infty}^{\infty}f(x)dx$ です。
また、累積分布関数を $F(x):=\int_{-\infty}^xf(x)dx$ で定義します。
以下、簡単のため確率分布と確率関数及び確率密度関数を同一視します。
確率変数 $X_1,X_2,\dots X_n$ を、確率分布 $f(x)$ からのランダムなサンプルとするとき、 $X_1,X_2,\dots X_n, i.i.d. \sim f(x)$ と表します。(independently and identically distributed)
また、期待値 $\mu$ ,分散 $\sigma^2$ のある分布からのランダムサンプルを、 $X_1,X_2,\dots X_n, i.i.d. \sim (\mu,\sigma^2)$ と表します。

大数の法則の主張

大数の法則と呼ばれる法則には、実は2種類あります。大数の弱法則（証明は簡単）と大数の強法則（証明は難しい）です。正直、大数の強法則と弱法則の違いがよく分かっていないのですが、参考のため載せておきます。大数の弱法則は強法則に含まれるらしいです。
大数の法則の仮定は、弱法則、強法則ともに同じで、確率変数 $X_1,X_2,\dots X_n, i.i.d. \sim (\mu,\sigma^2)$ で、分散 $\sigma^2<\infty$ であることです。
ここでは証明は省きますが、弱法則の証明ならほとんどの確率・統計の本に載っています。
大数の法則は、どちらも、標本平均 $\overline{X}:=\displaystyle \sum_{i=1}^nX_n$ と期待値 $\mu$ の関係を示した法則です。( $\bar X$ も確率変数であることに注意)

大数の弱法則

標本平均[TeX:]は期\overline{X}待値 $\mu$ に確率収束する。
即ち、任意の $\varepsilon>0$ に対し、
$\displaystyle\lim_{n\to\infty}P(|\overline{X}-\mu|<\varepsilon)=1$

大数の強法則

標本平均 $\overline{X}$ は期待値 $\mu$ に概収束する。
即ち、
$\displaystyle P(\lim_{n\to\infty}|\overline{X}-\mu|=0)=1$

ベルヌーイ分布の例

ここで、我々が考えうる最もシンプルな確率分布の一つ、ベルヌーイ分布を考えたいと思います。
ベルヌーイ分布とは、確率変数 $X=1,0$ に対し、
$P(X=1)=p$
$P(X=0)=1-p$
という確率を与えるような分布です。(ただし $0\leq p\leq 1$ )
$\langle X\rangle = p+0=p$
$\sigma^2=(1-p)^2p+(0-p)^2(1-p)=p(1-p)$
より、大数の法則の仮定を満たします。
ベルヌーイ分布からのランダムなサンプルを、 $X_1,X_2\dots X_n i.i.d.$ でとると、標本平均 $\overline{X}$ は $n\rightarrow \infty$ で $p$ に確率収束します。
$\overline{X}\rightarrow_p p ( n\rightarrow \infty)$

頻度分布と確率分布の対応

今までみてきたように、大数の法則は標本平均の標本数を増やした挙動についてしか教えてくれず、標本数を増やしていった時の分布の漸近的挙動の情報は含まれていません。しかし、実はこれだけで頻度分布が確率分布に近づいていくことが分かります。
確率分布 $f(x)$ に従う確率変数をランダムに取ります。すなわち、
$X_1,X_2\dots X_N i.i.d.\sim f(x)$
ここで、 $x\in X$ を(添え字によらず）任意に取り、次のような確率変数の変換を行います。
$Y_i=\left\{\begin{array}{ll} 1& (X_i\leq x)\\ 0 & (X_i> x)\\ \end{array} \right.$
すると $Y_1,Y_2,\dots Y_N$ は、
$p(Y)=\left\{\begin{array}{ll} F(x)& (Y=1)\\ 1-F(x) & (=0)\\ \end{array} \right.$
なるベルヌーイ分布からのランダムサンプルになっています。（ここで、 $F(x)=\int_{-\infty}^{x}f(x')dx'$ は累積分布関数）
ここで、 $N$ 個のサンプルの内、 $X_i\leq x\Leftrightarrow Y_i=1$ を満たすような $X_i$ の個数を、 $n(X\leq x)$ とし、頻度 $\eta(X\leq x)$ を、
$\eta(X\leq x):=\displaystyle \frac{n(x)}{N}$
で定義します。
$\eta(X\leq x)=\displaystyle \frac{1}{N}\sum_{i=1}^NY_i=\overline{Y}$
であることから、上述のベルヌーイ分布に対する大数の法則により、
$\eta(X\leq x)\rightarrow_p F(x) (n\rightarrow \infty)$
が成立します。
つまり、 $N$ が十分大きければ、データが $x$ 以下の値を取るような頻度は、累積分布関数であるとほぼみなせます。
ランダムサンプルが $x_1\leq X\leq x_2$ の間にある値をとるような頻度は、
$\eta(x_1\leq X\leq x_2)\approx \int_{x_1}^{x_2}f(x)dx$
となり、確率密度関数は、頻度の密度を表していると考えることが出来ます。

おわりに

この証明の肝は、公理的に定められた確率を、ベルヌーイ分布に従う確率変数に帰着させるところにあります。ベルヌーイ分布というある種簡単すぎる確率分布が、一般の確率分布の性質の証明に深くかかわっているのは、驚きだと思います。

参考文献

1)石谷健介（2021）「ガイダンス　確率統計―基礎から学び本質の理解へー」、サイエンス社
この本では、累積分布関数を用いる方法ではなく、ヒストグラムを使う方法で証明していました。
2）久保川達也（2017）[共立講座　数学の魅力11　現代数理統計学の基礎」、共立出版
基本的に用語はこの本を参考にしました。
3）高校物理の備忘録　大数の法則
physnotes.jp