普段、私たちが旅行先など知らない土地に訪れ、あらかじめお目当としている飲食店がない場合、スマホでその土地の人気のお店を検索することと思います。
そして、検索結果から、口コミサイトの口コミやランキング・点数などの情報を参考にし、最終的に訪れるお店を決めることと思います。
ランキングという情報は、ユーザー評価の高い順にお店を見ることが出来るため、シンプルに分かりやすいと言えます。
点数という情報は、ランキングだけでは表現できない、相対的なユーザー評価の違いを、知ることができるような気がします。
しかし、この口コミサイトの点数はどのように解釈すればいいのでしょうか?
今回の記事では、口コミサイトの「点数」が、統計学の観点からどのような意味を持つ数値データなのかを考えていきます。
食べログの点数の意味とは?データ分析者が知っておくべき4つの尺度
食べログの点数はユーザー評価の平均点?
食べログなどの口コミサイトの点数は、基本的にはユーザー評価の平均点のような値となります。
厳密に言えば、2021年11月時点で食べログは、ユーザーの影響度を考慮した加重平均のような仕組みを採っています。しかし、ここでは、加重平均値でも平均値でも、考え方は同じにできるため、食べログの点数は平均値であるという前提で話を進めていきます。
ここからは、具体例とともに見ていきます。
ある飲食店Aと飲食店Bがあります。2つのお店の平均単価について、
- 飲食店Aの一人あたりの平均単価は3,000円
- 飲食店Bの一人あたりの平均単価は4,500円
というデータがあった場合に、
- 飲食店Bは飲食店Aより一人あたりの平均単価が1,500円多い
- 飲食店Bは飲食店Aより一人あたりの平均単価が1.5倍多い
と言うことが出来ます。
一方で、2つのお店の食べログ点数について、
- 飲食店Aの食べログ点数は★3
- 飲食店Bの食べログ点数は★4.5
であった場合に、
- 飲食店Bは飲食店Aより食べログ点数は★1.5多い
- 飲食店Bは飲食店Aより食べログ点数は1.5倍多い
と言うことは出来るのでしょうか?
百歩譲って、算数的な間違いはないので、文章としては成立しているのかもしれませんが、これはどういう意味を持つことになるのでしょうか?
食べログの点数=ユーザーの評価なので、今回の場合は飲食店Bの方が、より高くユーザー評価を得られていることになるのかもしれません。しかし、それが★1.5分だけ良いとか、1.5倍良いということにはなりません。
その理由は、次の2つです。
★は個人の感覚でつけられる
たとえば、ひとりの評価者が飲食店Aには★3をつけ、飲食店Bには★4をつけたとします。
この評価者にとっては、飲食店Bの方が高評価であるということには言えます。
しかし、これはあくまでも個人の感覚(印象)を、無理やり数値化しただけのものであります。よって、★の数には定量的な意味は全くなく、この★の差を比べることなどは全く意味のない行為となります。
★が持つ価値は評価者によって異なる
たとえば、辛口評価を行う傾向があり、過去のユーザー評価の中央値が★2である男性が飲食店Aに★4をつけることと、甘口評価が基本であり、過去のユーザー評価の中央値が★4.8である女性が飲食店Bに★4をつけた場合とでは、同じ★4が持つ意味は異なってしまいます。
しかし、平均値という情報に落とし込んでしまうと、読み手側はこの違いを認識することはできません。
このように、食べログの点数は平均値で語るべき数値情報ではないことが分かりました。
では、どういった数値情報が平均値をとれるのでしょうか?
ここからは、統計学で出てくる4つの尺度を紹介していきます。
名義尺度、順序尺度、間隔尺度、比例尺度
名義尺度
名義尺度とは、数字の値や順序に意味を持たない尺度のことです。
- 例:郵便番号、社員番号、電話番号など
- 可能な統計処理:最頻値
郵便番号や電話番号などの数字を四則演算した数字には意味を持たないことは説明不要かと思います。
順序尺度
順序尺度とは、数字の順序には意味があるが、数字の間隔には意味がない尺度のことです。
- 例:食べログの点数、アンケートの選択肢(1.良い、2.普通、3.悪い、など)
- 可能な統計処理:最頻値、中央値
今回例に挙げた食べログの点数も、順序尺度に分類されます。
データを統計的に処理する場合、最頻値や中央値することは可能ですが、平均値を求めるなどの四則演算で求められる値には意味を持ちません。
間隔尺度
間隔尺度とは、整数など飛び飛びの値しかとりえない尺度のことです。
- 例:日付、時間、摂氏温度など
- 可能な統計処理:最頻値、中央値、足し算・引き算(平均)
摂氏温度の20℃と21℃の差の1℃と、23℃と24℃の差の1℃は同じ意味であり、2つの値を足し算・引き算をすることは可能ですが、20℃は10℃の2倍であるなどのような、掛け算・割り算の関係を考えることには意味がありません。
その理由は、間隔尺度で用いる0(原点)の取り方は自由であり、温度には摂氏や華氏があるように、原点の取り方によって、比率の値が変わりうるためです。
比例尺度
比例尺度とは、0(原点)に意味があり、変数の比にも意味がある尺度のことです。
- 例:身長、体重、速度、売上金額など
- 可能な統計処理:最頻値、中央値、足し算・引き算(平均)、掛け算・割り算(幾何平均)
比率尺度では、「Aさんの身長はBさんの身長より10cm高い」「昨年より売り上げが10%増加した」などのように、四則演算した値が意味をもちます。
まとめ
今回の記事では、食べログの点数を例に挙げ、食べログの点数が平均値であることが、統計的には意味を持たないことを紹介していきました。
また、統計学においては「名義尺度」「順序尺度」「間隔尺度」「比例尺度」の4つの尺度があることを述べ、食べログの点数は「順序尺度」に分類され、それらは平均値を意味を持たないことを紹介しました。
我々は普段の生活において、ニュースや仕事などを通じて、さまざまな形で数値データを目にします。そして、そのデータの中には、足し引きしてはならない「順序尺度」の平均値を見せられていたり、比率で考えてはならない「間隔尺度」の比率を見せられたりしている可能性があります。
統計学を学ぶことは、データの見る力、扱う力、見せる力を養うことに繋がります。データが価値を持つ現代において、統計学を学ぶことの意義は大きいのではないでしょうか。
じゃあ
関連記事