別記事「あなたはどのぐらい覚えている?統計検定2級で必要な数学力」では、統計検定2級で求められる数学レベルについて紹介しました。
その記事の中で、統計検定2級は「大学基礎統計学の知識と問題解決力」を問う試験であり、大学基礎統計学とは、大学1・2年次の統計学の科目で学習するレベルであることを紹介しました。
一方で、統計検定2級は、数式をこねくり回して解くような数学力がなくても、公式を覚えているだけで十分対応可能な問題が多くあります。
ということで、今回の記事では、
- 統計検定2級で覚えておきたい公式&定義
を紹介していきます。
なお、統計検定2級で扱う学習範囲の全ての公式や定義を網羅的に紹介するわけではないので、その点はあしからず。
統計検定2級で覚えておきたい公式&定義
① 分散・不変分散・共分散
1. 分散
$$V(X) = \frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2 $$
$$V(aX+bY) = a^2V(X) + b^2V(Y) $$
$$V(aX-bY) = a^2V(X) + b^2V(Y) $$
$$V(X) = E(X^2) – \{E(X)\}^2 $$
※ 「二乗の期待値ひく期待値の二乗」 と言葉(リズム)で覚える
2. 不変分散
$$ μ^2 = \frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2 $$
3. 共分散
$$ Cov(X, Y) = \frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y}) $$
4. 相関係数
$$ r = \frac{Cov(X, Y)}{\sqrt{V(X)}\sqrt{V(Y)}} $$
② 確率分布の期待値と分散の公式
1. ベルヌーイ試行
ベルヌーイ試行とは、たとえば、コインを投げた場合に表が出るか裏が出るかなど、起こりうる結果が2通りしかない試行。
$$E(X) = p$$
$$V(X) = p(1-p) $$
2. 二項分布
ベルヌーイ試行をn回行って、成功する回数Xが従う確率分布
$$E(X) = np$$
$$V(X) = np(1-p) $$
3. ポワソン分布
二項分布において、n→∞、p→0として、np=λと固定し、ある期間に平均λ回発生する現象が、ある期間にx回起こる確率分布
$$E(X) = λ$$
$$V(X) = λ$$
$$P(X=x) = \frac{e^{-λ}・λ^x}{x!} $$
4. 幾何学分布
ベルヌーイ試行を成功するまで繰り返し行い、初めて成功するまでに行った試行回数Xが従う確率分布
$$E(X) = \frac{1}{p}$$
$$V(X) = \frac{1-p}{p^2} $$
確率分に関しては、他に、一様分布、2変量正規分布、超幾何学分布、負の二項分布などが出題範囲には含まれております。出題頻度は低くなりますが、参考までに一部の分布の公式を掲載します。
5. 一様分布
確率密度関数が一定の値となる分布。離散一様分布と連続一様分布がある
・離散一様分布:確率変数Xが1以上n以下の自然数をとる場合
$$E(X) = \frac{n+1}{2}$$
$$V(X) = \frac{n^2}{12} $$
・連続一様分布:悪率変数Xがa以上b以下の値をとる場合
$$E(X) = \frac{a+b}{2}$$
$$V(X) = \frac{(a+b)^2}{12} $$
6. 指数分布
指数分布は、あるランダムな事象が発生してから、次にそのランダムな事象が発生するまでの発生間隔を表す分布。ある期間に平均してλ回発生する現象に対して、次にその事象が発生するまでの期間Xが従う確率分布
$$E(X) = \frac{1}{λ}$$
$$V(X) = \frac{1}{λ^2} $$
7. 超幾何学分布
2つの性質を持つ大きさNの母集団において、性質Aが含まれる割合がpであるとし、この母集団からn個の標本を抽出した場合、その抽出された標本の中からX個が性質Aである場合のXが従う確率分布
$$E(X) = np$$
$$V(X) = \frac{N-n}{N-1} np(1-p) $$
③ 各種検定量の定義
1. 平均の検定(母分散が既知の場合)
$$z = \frac{\bar{X}-μ}{\sqrt{σ^2/n}}$$
2. 平均の検定(母分散が未知の場合)
$$t = \frac{\bar{X}-μ}{\sqrt{μ^2/n}}$$
3. 分散の検定
$$χ^2 = \frac{(n-1)μ^2}{\sqrt{σ^2}}$$
4. 比率の検定
$$z = \frac{\hat{p}-p_0}{\sqrt{p_0(1-p_0)/n}}$$
5. 平均の差の検定
$$z = \frac{\bar{X_1}-\bar{X_2}}{\sqrt{σ_1^2/n_1 + σ_2^2/n_2}}$$
6. 平均の差の検定(等分散の場合)
$$z = \frac{\bar{X_1}-\bar{X_2}}{μ\sqrt{1/n_1 + 1/n_2}}$$
7. 平均の差の検定(対応のある場合)
$$ t = \frac{\bar{d}-0}{μ/\sqrt{n}}$$
8. 比率の差の検定
$$ z = \frac{|\hat{p_1}-\hat{p_2}|}{\sqrt{p_1(1-p_1)/n_1 + p_2(1-p_2)n_2}} $$
9. 等分散の検定
$$ F = \frac{u_1^2,u_2^2の大きい方}{u_1^2,u_2^2の小さい方} $$
④ 他に覚えておきたい定義&公式
1. フィッシャーの3原則
・無作為化:予期される または 予期しない偏りを防ぐ
・繰り返し:ばらつきの大きさを見積もる
・局所管理:実験の条件をできるだけ均一化させる
2. 抽出法
・単純無作為抽出:ランダム。男女比など母集団と一致しないデメリットあり
・系統抽出:通し番号
・多段抽出:全国→市町村、市町村→世帯など
・クラスター抽出:母集団を小集団(クラスター)に分け、その中からいくつかのクラスターを無作為抽出し、そのクラスターを全数調査。
・層化抽出:層と呼ばれる集団分割。層内は均一。構成比を母集団と標本で同じにできる
3. ラスパイレス指数
$$ラスパイレス指数 = \frac{\sum{(比較年の価格×基準年の数量)}}{\sum{(基準年の価格×基準年の数量)}}×100$$
$$パーシェ指数 = \frac{\sum{(比較年の価格×比較年の数量)}}{\sum{(基準年の価格×比較年の数量)}}×100$$
$$ フィッシャー指数 = ラスパイレス指数 × パーシェ指数$$
ラスパイレス指数については、比較年と基準年の関係、価格と数量のどちらが基準になるか、混同しがちです。そこで、次の語呂を覚えておきましょう。
ラッキーです! = ラスパイレスは基準時の数量を掛ける
4. 歪度
・歪度+(プラス): 頂点は右側
・歪度-(マイナス):頂点は左側
5. 条件付き確率
P(B|A):Aが起こるという条件のもとでBが起こる確率
$$P(B|A) = \frac{P(A\cap{B})}{P(A)}$$
6. 第一種の過誤、第二種の過誤
・第一種の過誤(α):帰無仮説が真であるにも関わらず、帰無仮説を偽として棄却してしまう誤りのこと
・第二種の過誤(β):帰無仮説が偽であるにも関わらず、帰無仮説を真として棄却しない誤りのこと
7. F分布
確率分布W1,W2がχ二乗分布に従い、自由度がそれぞれm1,m2である場合の確率分布
$$F = \frac{W_1/m_1}{W_2/m_2}$$
8. カイ二乗分布
互いに独立で標準正規分布に従う確率変数であるとき、χ2が従う確率分布
$$χ^2 = \sum{\frac{(観測値-期待値)^2}{期待値}}$$
9. 回帰分析の自由度
$$自由度(DF)= サンプル数 – 推定式パラメタ数$$
まとめ
今回の記事では「統計検定2級で暗記しておきたい公式&定義」を紹介していきました。
ここで紹介した公式&定義が全てというわけではないですし、公式を丸暗記しなくとも数学的に導出可能なものもあります。しかし、統計検定2級の試験は、限られた時間で多くの問題を解くことが求められる試験でもあるので、可能な限り公式は覚えておくべきと言えます。
ということで、この記事が統計検定2級の試験を控えているみなさまの役に立てば幸いです。
私たちは20代から50代のビジネスパーソンに向けて、パラレルキャリア研究会というコミュニティーを運営しています。当研究会はデータサイエンスについても互いに学び合う場を提供しています。
私達と一緒に学んでみたいという意欲のある方、データサイエンスの自学自習に少しでも興味がある方は、お気軽にこちらからお問い合わせください。