あなたはどのぐらい分かる?回帰分析のサマリの読み方

ビジネスマンが資料について議論中

 

別記事「過去最低の出生数は偶然なのか?」で、婚姻数と出生数についての回帰分析を行い、その結果についてご紹介しました。

記事の中で、回帰分析のサマリを掲載しましたが、みなさんはどの程度そのサマリを読めますか?

 

今回の記事では、

  • 回帰分析の結果は、p値しか気にしていなかった
  • 統計検定2級で回帰分析のサマリの見方は勉強したけど、他の形式も見てみたい

 

という人に向けて、「Pythonのstatsmodelsによる回帰分析のサマリの見方」を紹介していきます。

 

あなたはどのぐらい分かる?回帰分析のサマリの読み方

 

statsmodelsとは?

はじめにstatsmodelsは、統計モデルを用いた推定や検定が行えるPythonモジュールです。

 

<statsmodels.org より引用>

statsmodels is a Python module that provides classes and functions for the estimation of many different statistical models, as well as for conducting statistical tests, and statistical data exploration. An extensive list of result statistics are available for each estimator. The results are tested against existing statistical packages to ensure that they are correct. The package is released under the open source Modified BSD (3-clause) license. The online documentation is hosted at statsmodels.org.

statsmodels のサマリの読み方

別記事「過去最低の出生数は偶然なのか?」の回帰分析で得られた結果のサマリは下記の通りです。

出生数の統計的データ

みなさんは、このサマリに書いてある情報を、どの程度理解することができますか?

ここから、このサマリの代表的な情報について紹介していきます。

 

① coef ‥ 係数

1行目の”const”は切片の係数、2行目の”mariage”は説明変数(婚姻数)にかかる回帰係数を指します。

今回の場合は、得られた結果から

 (出生数) = 1.1816 × (婚姻数) + 2.42e+0.5

という回帰式が推定されます。

 

② std err ‥ 標準偏差

係数の推定値の標準誤差を指します。値が小さいほど精度の高い推定であることを意味します。

 

③ t ‥ t値

係数の優位性を検定するための統計量。推定値を標準偏差で割った値となります。

値が大きいほど、意味のある説明変数であることを意味します。

 

④ P>|t| ‥ p値

各係数の値が0であるという帰無仮説を検定した結果(確率)を指します。

有意水準を5%とした場合、この値が0.05(5%)以下であれば、「係数の値が0である」という帰無仮説が棄却され、意味のある説明変数となることを意味します。

 

⑤ [0.025 0.975] ‥ 95%信頼区間

95%信頼区間とは、得られたデータをもとに信頼区間を100回求めた場合、100回のうち95回は、信頼区間の範囲の中に真の値が含まれることを意味します。

[0.025 0.975]は、両側検定における2.5%と97.5%をそれぞれ指しています。

今回の結果では、回帰直線の切片と回帰係数(傾き)の95%信頼区間は次の通りとなります。

  • 切片の95%信頼区間= 163,000 ~ 321,000
  • 回帰係数(傾き)の95%信頼区間=1.068 ~ 1.295

 

⑥ その他のサマリ

  • OLS … 最小二乗法 (Ordinary Least Squares)
  • Dep. variable … 目的変数、今回の例では出生数を意味するbirthが目的変数
  • No. Observation … サンプル数
  • DF Residuals … 残差の自由度(Digree Free)
  • R-squared … 決定係数、1に近いほど残差平方和が小さい
  • Adj. R-squared … 自由度調整済み決定係数
  • F-statistic … F統計量、回帰式が意味があるかどうかを検定をする統計量
  • Prob(F-statistic) … F検定のp値
  • Log-Likelihood … 対数尤度
  • AIC … 赤池情報量基準(Akaike’s Information Criterion)、小さいほど良いモデル
  • BIC … ベイズ情報基準(Bayesian Information Criterion)、回帰モデルが多くの項を含みすぎるとペネルティを課される

 

統計検定2級で出題される回帰分析のサマリはR言語の形式

一般財団法人 統計質保証推進協会が推進する「統計検定2級」の試験では、回帰分析のサマリの読み方に関する問題が出題されます。

そのサマリは、R言語のlm関数の形式となるため、統計検討の受験を考えいる人は、サマリの内容を比較してみるといいかもしれません。

 

まとめ

今回の記事では、「Pythonのstatsmodelsによる回帰分析のサマリの見方」について紹介しました。

著者自身、はじめてPythonで回帰分析を行ったときは、係数とp値だけを見て、それ以外の結果については着目しておりませんでした。

しかし、それぞれの結果の意味を理解することで、結果の解釈の仕方に幅を広げられたように思います。

また今回の記事では紹介しませんでしたが、複数の説明変数を扱う際に注意が必要となる多重共線性についても、同じく理解しておきたいキーワードとなりますので、それはまた別の記事で紹介したいと思います。

私たちは20代から50代のビジネスパーソンに向けて、パラレルキャリア研究会というコミュニティーを運営しています。当研究会はデータサイエンスについても互いに学び合う場を提供しています。

私達と一緒に学んでみたいという意欲のある方、データサイエンスの自学自習に少しでも興味がある方は、お気軽にこちらからお問い合わせください。

じゃあ。

 

関連記事

過去最低の出生数は偶然なのか?

重回帰分析で発生する多重共線性に対処してみた

[article-banner-2]

ABOUTこの記事をかいた人

パラレルキャリア研究会創設メンバー 岩手県出身。東北大学工学部卒、同大学院工学研究科修了。半導体メーカーに入社後、エンジニアとして半導体製品の企画・開発に従事。30代後半に軸ずらし転職でキャリアをシフト。本業の傍ら独学でPython&統計学を学習中。1児のパパ。趣味は日本酒、ロードバイク。中小企業診断士、SAKE DIPLOMA。