データサイエンティストは知っている生存者バイアスについて

あなたが知らないモノ・事に対して、何らかの判断を下す場合、あらゆる情報を集め、その情報を元に判断・意思決定をしていると思います。

それでは、その集めてきたデータは信じて良い情報なのでしょうか?

今回の記事では、データサイエンティストやデータ分析に携わる人が知っている「生存者バイアス」について紹介します。

 

データサイエンティストは知っている生存者バイアスについて

データを集めるだけで正しい判断はできるか?

唐突ではありますが、本ページを読んでいるみなさんに、あるミッションを任された責任者になったつもりになっていただき、次のことを考えていただきます。

そのミッションとは「ある戦闘機の帰還率を高めること」です。そして、みなさんは部下に指示を出し、過去に戦場より帰還できた戦闘機に着目し、敵の射撃により破損を受けた位置の情報をまとめさせました。

そして、その破損個所をプロットさせたところ、次の図が挙がってきました。

さて、この結果より、あなたはどの部位を補強することを決めますか?

図より、敵の射撃を受けた場所はいくつもあることが分かります。

この結果を踏まえて、補強を行うべきは、最も破損が多かった主翼と胴体が繋がっている部分でしょうか?それとも、主翼先端部でしょうか?もしかすると、主翼の次に損害が多い尾翼も補強したほうがいいでしょうか?

 

勘のいい方や、思慮深い方は、あることに気付かれているかもしれません。

それは、破損を受けていない箇所がいくつもあることです。レドームを含む胴体先端部前方プロペラ部主翼の中央部パイロットが載るコックピット部など箇所です。

レドームを含む先端部は空気抵抗を小さくする重要な役目もありますが、先端にはエンジンが搭載されていました。プロペラの破損は飛行そのものが難しくなります。また、コックピットの破壊やパイロットの死亡は、飛行不能になることに直結します。

つまり、今回、補強を行うべきは「プロットされていない箇所」という結論となります。

この事例は、「戦闘機の生還率を高める」というミッションに対して「生還できなかった戦闘機」は考慮せず、収集可能な情報である「生還した戦闘機」の情報のみを用いて分析や判断を行おうとするところに、ひっかけがありました。

このように、何らかの選択過程を通過した人・モノ・事のみを基準とし、選択過程に通過しなかった人・モノ・事を考慮から外れてしまうことを「生存者バイアス」と言います。

 

世の中の情報はバイアスにまみれている

さきほどの戦闘機の事例は、意図せず(悪意なく)、生存者バイアスを生じさせていた事例でした。

一方で、我々の身近には、意図して(悪意を持って)バイアスが掛かった状態の情報が広く展開されている場合が多くあるように思います。

たとえば、保険のCMでは保険の恩恵に授かった人の声のみが紹介され、ダイエットのCMではその商品で減量に成功した人のみが紹介されています。当然、これらは、そのようなデータや広告を出した方が都合がいいためです。

 

まとめ

世の中には、作成者が意図する・しないに関わらず、生存者バイアスが掛かった情報が多くあります。

そのため、我々が普段の生活やビジネス上の場面において、何らのデータを扱う場合には、そのデータに生存者バイアスが掛かっていないかどうかに注意を払う必要があります。

そして、我々自身が、データを用いて何かの情報主張を誰かに伝える場合においても、同じように生存者バイアスを掛けてしまわないように注意を払う必要があると言えます。

一方で、この生存者バイアスを排除しようとすると、大きな労力が発生する場合もあるので、それはそれで注意が必要となりますが、それはまた別の機会に書きたいと思います。

じゃあ。

 

関連記事

食べログの点数の意味とは?データ分析者が知っておくべき4つの尺度

ファイナンシャルリテラシーがある人なら知っている幾何平均とは?

 

[article-banner-2]

ABOUTこの記事をかいた人

パラレルキャリア研究会創設メンバー 岩手県出身。東北大学工学部卒、同大学院工学研究科修了。半導体メーカーに入社後、エンジニアとして半導体製品の企画・開発に従事。30代後半に軸ずらし転職でキャリアをシフト。本業の傍ら独学でPython&統計学を学習中。1児のパパ。趣味は日本酒、ロードバイク。中小企業診断士、SAKE DIPLOMA。