知っておきたい中央値とヒストグラムの重要性について

平均値は、小学生でも学ぶ数にまつわる基本的な概念であり、社会人になっても使うことが多い概念です。一方で、統計データを扱う上で、平均値だけで議論することは、間違った判断に至ることがあります。

今回の記事では、平均値とともに用いられることが多い中央値と、グラフの一種であるヒストグラムについて書いていきます。

 

知っておきたい中央値とヒストグラムの重要性について

世帯所得の平均値と中央値

次のグラフは平成30年に厚生労働省が発表した各世帯の所得の分布状況となります。

本統計に用いられているデータは、平成29年の1月1日から12月31日までのデータです。

そして、世帯毎の所得額を0万円から2,000万円以上までの間を100万円ごとに区分し(階級幅=100万円)、その世帯割合をヒストグラム(度数分布図)でグラフ化させたものです。

この統計データによると、日本の1世帯あたりの所得額平均552万円です。

 

さて、この所得額は、みなさんの所得額より多いでしょうか?それとも少ないでしょうか?

 

我々が自分自身の所得額を世の中一般のそれと比較するための基準として平均値中央値があります。平均値は、すべての所得額の合計を世帯数で割ったものです。一方、中央値は、全ての世帯を所得額の順に並べた際、最も中央にいる世帯の所得額を指します。

平成29年の日本の世帯数は約5,340万世帯であったため、この世帯を所得順に並べた際の、約2,670万番目の世帯の所得額が、所得額の中央値と言えます。そして、世帯あたりの所得額の平均値552万円であるのに対して、中央値423万円となります。

さて、ここで、所得額の中央値は所得額の平均値よりも100万円以上も小さいことに気づきます。そして、この中央値平均値より小さくなることは、ヒストグラムからも直感的に分かると思います。

もう少し見ていくと、所得額の平均値552万円より所得額が低いゾーン(階級)は0万円から500万円までの5つゾーン(階級)があります。そして、全世帯数に対するこの5つのゾーン(階級)の世帯数割合の合計は57%であり、過半数以上を占めていることが分かります。

よって、日本国内の57%以上の世帯は、日本国内の世帯の平均の所得額より少ないことになります。

このことから、単純に平均値を基準にして所得額の多い・少ないを議論してしまうと、所得額が少ない世帯が多くなってしまうことが分かります。

そして、平均値ではなく中央値を基準に考えた方が、現実的な(体感に近い)比較になるのかもしれません。

 

なお、年収や所得、そして資産(貯蓄額)などのお金に関する統計データは、平均値より中央値の方が低くなる傾向があるようです。

貯蓄額の平均値や中央値についてまとめているサイトもあるので、自分自身の貯蓄額と比較してみるのもおもしろいと思います。

 

平均値と中央値をどう使い分けるか?

ここで、もし、あなたが何かのマーケティングの担当者として、リーチ(広告の到達率)を最大化させることをミッションとして負っていた場合、世帯あたりの所得額の平均値(551万円)に最適化されたプログラムと、中央値(423万円)向けに最適化されたプログラムのどちらを選ぶでしょうか?

ここでのミッションはリーチの最大化なので、母数(世帯数)がより多い、中央値(423万円)向けに最適化されたプログラムを選択するのではないでしょうか?

このように、目的に応じて、平均値に着目するか中央値に着目するかが変わります。

 

ヒストグラムの重要性について

さきほどのマーケィングの事例で、平均値または中央値をベースとしたプログラム以外のアプローチは考えられないでしょうか?

ここで、さきほど掲載した世帯所得の分布状況のヒストグラムを少しだけ加工した形で再掲します。

たとえば、より所得別にセグメント化したマーケティングを考えるのであれば、最も度数が大きい(最頻)の100万円から400万円の層に最適化されたプログラムが、選択肢として考えられるのではないでしょうか?

この選択は、上記のようなヒストグラムを見れば、当然のように出てくる案であったと言えますが、一方で、平均値中央値数値情報だけでは導出することが出来ない案であったと言えます。

このように、ヒストグラムなどの視覚化を行うことも、統計データを正しく捉えるためには重要であることが理解できると思います。

 

まとめ

今回の記事では、平均値中央値について、世帯の所得額の分布を題材に紹介していきました。

はじめに、与えられたデータを用いて得たい結論の内容によっては、平均値ではなく中央値を用いた方が良いことについて紹介しました。

さらに、ヒストグラムを用いることで平均値中央値などの数値情報だけでは気付くことの出来なかった視点を得られることについても紹介しました。

 

最後に、統計データを扱った世の中の情報(たとえば業界別年収ランキングなど)は、平均値だけで書かれているものが多いです。そして、その情報自身が正しかっとしても、平均値だけで議論してしまうと誤った結論に至ってしまう可能性があります。

そのため、我々の普段の生活やビジネス上の場面において、平均値だけで主張を展開し結論を出す、さらには重要な意思決定を求めようとする相手が現れた場合は注意を払う必要があります。

さらには、我々自身も同様に、データを用いて何かの情報結論を他の相手に伝える場合においては、十分に注意を払う必要があると言えるのではないでしょうか。

 

じゃあ。

 

関連記事

データサイエンティストは知っている生存者バイアスについて

食べログの点数の意味とは?データ分析者が知っておくべき4つの尺度

[article-banner-2]

ABOUTこの記事をかいた人

パラレルキャリア研究会創設メンバー 岩手県出身。東北大学工学部卒、同大学院工学研究科修了。半導体メーカーに入社後、エンジニアとして半導体製品の企画・開発に従事。30代後半に軸ずらし転職でキャリアをシフト。本業の傍ら独学でPython&統計学を学習中。1児のパパ。趣味は日本酒、ロードバイク。中小企業診断士、SAKE DIPLOMA。