あなたは聞いたことがある?シンプソンのパラドックスとは

水辺の絵

 

別記事「書籍「統計学が最強の学問である」は統計検定2級の知識でどれだけカバーできるのか?」では、書籍「統計学が最強の学問である」で登場する専門用語について、統計検定2級の範囲で扱われる用語と、扱われない用語のそれぞれについて紹介しました。

 

その記事の中で、統計検定2級では扱われない用語に「シンプソンのパラドックス」がありました。

 

みなさんはこの「シンプソンのパラドックス」という言葉を知っているでしょうか?

 

 

ということで、今回の記事は

  • シンプソンのパラドックスを聞いたことがないため、知りたい
  • 統計学やデータリテラシーに関する小ネタは大好物

 

という人に向けて「シンプソンのパラドックス」を紹介していきます。

 

 

あなたは聞いたことがある?シンプソンのパラドックスとは?

100%

 

進学塾Xと進学塾Y、どちらの合格率が高いか?

 

シンプソンのパラドックス」が何なのかを説明する前に、次の表を見てください。

進学塾Xの合格率 進学塾Yの合格率
A高校 67% 69%
B高校 66% 70%
S高校 40% 44%

 

この表より、合格率が高いのはどちらの進学塾と言えるでしょうか?

 

表から得られる情報を基に考えると、「進学塾Yの合格率が高い」ことは自明と言えます。

 

しかし、この結論は、データの見方を変えると、別の結論が出てくるのです。

 

 

本当に進学塾Yの合格率が高いのか?

 

さきほどの表は、高校ごとの合格率を掲載しておりました。

しかし、合格率ではなく、合格者数と受験者数でまとめると、どうなるでしょうか?

進学塾X 進学塾Y
受験者 合格者数 合格率 受験者 合格者数 合格率
A高校 30人 20人 67% 16人 11人 69%
B高校 50人 33人 66% 10人 7人 70%
S高校 20人 8人 40% 45人 20人 44%

 

もちろん、高校ごとの合格率は前の表と同じ数値となります。

一方で、受験者数と合格者数が分かったため、3校合計の受験者数、合格者数、そして合格率を求めることができます。

 

進学塾X 進学塾Y
受験者 合格者数 合格率 受験者 合格者数 合格率
3校合計 100人 61人 61% 71人 38人 54%

 

この表より、3校合計の合格率を比較すると「進学塾Xの合格率が高い」結果となりました。つまり、さきほどの結論と逆の結論となったのです。

 

 

このように、小集団同士の比較と、全集団同士との比較とが矛盾した結果となることを、そのパラドックスを指摘したイギリスの統計学者エドワード・H・シンプソンの名前より、シンプソンのパラドックス(Simpson’s paradox)と呼ばれています。

 

 

さて、ここで、あなたが進学塾Xの塾長だったとします。

そして、もし、競合関係にある進学塾Yとの合格率の違いを、ホームページで訴求するのであれば、高校毎の合格率を掲載するのではなく、きっと3校合計の合格率を掲載することと思います。なぜなら、3校合計の合格率は進学塾Yに勝っているからです。

 

一方で、あなたが、こどもの進学塾への入塾を検討している保護者であったとします。

仮にホームページに掲載されているのが3校合計の合格率のみであったとして、もし、その情報だけで「進学塾Xの方が優れている」と判断してしまうと、誤った判断になるかもしれません。

なぜなら、あなたとあなたのお子さんは、偏差値が最も高いS高校への進学を考え、塾探しをしているかもしれないためです。つまり、S高校への進学のみに焦点を当てるのであれば、優れている進学塾は「合格者数および合格率が高い進学塾Y」と言えるかもしれないのです。

 

シンプソンのパラドックスに陥らないための統計学手法について

 

今回紹介したシンプソンのパラドックスの例では、高校別の合格率を見るか、全体の合格率を見るかで、結論が変わってしまいました。このように、データの切り取り方次第で結果が変わりうるデータは、フェアな解析ができない可能性があるデータと言えます。

しかし、このようなフェアな解析ができない可能性があるデータに対しても、フェアな解析を行うことができる統計学的手法が存在します。それは、重回帰分析ロジステッィク回帰と呼ばれる手法です。

重回帰分析ロジステッィク回帰の説明については、また別の記事に譲りたいと思いますが、これらの統計学的手法を用いることによって、フェアな解析ができない可能性のあるデータに対しても、正しい分析を行うことができるのです。

 

まとめ

 

今回の記事では、「シンプソンのパラドックス」について紹介しました。

 

シンプソンのパラドックスとは、フェアな比較ができないことによってデータの解釈を間違ってしまう現象を指摘したパラドックスの一つであり、具体的には、小集団同士の比較は、全集団同士との比較結果と矛盾した結果となることでした。

 

今回のパラドックスの例は説明を聞けば、理解に難くない内容だとは思いますが、このようなパラドックスがあることを予め知っているのとそうでないのとでは、初見で見るデータに対する矛盾に気づく瞬発力に違いが出てくると言えます。

 

さらには、重回帰分析ロジスティック回帰のような統計学的手法を知っていれば、このような問題を抱えるデータに対しても、フェアな分析をすることが可能となります。

 

じゃあ

 

 

関連記事

書籍「統計学が最強の学問である」は統計検定2級の知識でどれだけカバーできるのか?

重回帰分析で求められるビールの出荷量の予測精度は?

 

 

[article-banner-2]

ABOUTこの記事をかいた人

パラレルキャリア研究会創設メンバー 岩手県出身。東北大学工学部卒、同大学院工学研究科修了。半導体メーカーに入社後、エンジニアとして半導体製品の企画・開発に従事。30代後半に軸ずらし転職でキャリアをシフト。本業の傍ら独学でPython&統計学を学習中。1児のパパ。趣味は日本酒、ロードバイク。中小企業診断士、SAKE DIPLOMA。