国内の統計データを調べる際は、政府統計の総合窓口のサイトである「e-Stat」を利用する方も多いかと思いますが、この「e-Stat」に掲載されるデータをベースに、データサイエンス教育向けに作られたデータセットがあることはご存じでしょうか?
今回の記事では、データサイエンス教育向けの公的統計の標準データセット「SSDSE」について紹介をします。
e-Stat利用者なら知っておきたいデータサイエンス教育向け統計データセットSSDSE
SSDSEとは?
「SSDSE(Standardized Statistical Data Set for Education)」とは、独立行政法人 統計センターが提供する、データサイエンス教育のためのデータセットです。(SSDSEサイトへのリンク)
SSDSEの概要と特徴は次の通りです。
- データ分析のための公的統計データセットが提供
- 独立行政法人 統計センターが作成・公開
- データは総務省統計局から発表されているデータを使用
- 誰でも登録なしで無料利用(ダウンロード)可能
- エクセル、CSVの2つの形式で提供
- 欠損データがなく、前処理が不要
- 本SSDSEを用いた統計データ分析コンペが開催
CSV形式で提供されており、データ欠損もないことから、ダウンロードしてすぐにデータ分析が可能なデータセットと言えそうです。
公開されている4つのデータセット
SSDSEでは次の4つのデータセットが公開されています。
① 市区町村別データ
◆ データの概要
- データセット:1741市区町村 × 125項目のデータセット
- データ年次:2014年~2018年
◆ 含まれるデータの内容
- 人口・世帯(総人口、日本人/外国人/年齢別/男女別人口、出生数、世帯数など)
- 自然環境(総面積、可住地面積)
- 経済基盤(分野別事業所数、分野別従業員数など)
- 行政基盤(歳入決算総額、地方税、教育費、災害復旧費など)
- 教育(幼稚園から高等学校の学校数と教員/生徒数)
- 労働の(就業者数、完全失業者数、非労働人口など)
- 文化・スポーツ(公民館数、図書館数)
- 居住(総人口、小売店数、飲食店数など)
- 健康・医療(一般病院数、一般診療所数、歯科診療所数、医師数など)
- 福祉・社会保障(保育所等数、保育所等在所児数)
② 都道府県別・時系列データ
◆ データの概要
- データセット:47都道府県 × 105項目 のデータセット
- データ年次:2007年~2018年
◆ 含まれるデータの内容
- 人口・世帯(総人口、日本人/外国人/年齢別/男女別人口、出生数、世帯数など)
- 自然環境(年平均気温、最高/最低気温、降水日数/量)
- 経済基盤(着工建築物、旅館営業施設数、住宅地/商業地標準価格など)
- 教育(幼稚園から大学の学校数と教員/生徒数)
- 労働(就業者数、完全失業者数、非労働人口など)
- 文化・スポーツ(一般旅券発行件数)
- 居住(着工新設住戸数など)
- 健康・医療(一般病院数、一般診療所数、歯科診療所数)
- 福祉・社会保障(保育所等数、保育所等在所児数)
- 家計(消費支出、食糧費、住居費など)
③ 都道府県庁所在市別 家計消費データ
◆ データ概要
- データセット:全国+47都道府県庁所在市 × 226項目
- データ年次:すべて2016年
◆ 含まれるデータの内容
- 穀類(米、パン、麺類など)
- 魚介類(まぐろ、あさり、揚げかまぼこ、鰹節など)
- 肉類(牛肉、豚肉、ハムなど)
- 乳卵類(牛乳、粉ミルク、卵など)
- 野菜・海藻(キャベル、さつまいも、さやまめ、豆類、りんごなど)
- 油脂・調味料(食塩、醤油、みそなど)
- 菓子類(ようかん、ケーキなど)
- 調理食品(弁当、調理パン、サラダなど)
- 飲料(緑茶、コーヒー、炭酸飲料など)
- 種類(清酒、焼酎、ビールなど)
- 外食(中華そば・うどん、中華そば、喫茶代、学校給食など)
④ 都道府県別の自由時間活動・生活時間データ
◆ データ概要
- データセット:総数+男女別× 全国+47都道府県× 119項目
- データ年次:すべて2016年
◆ 含まれるデータの内容
- 学習・自己啓発・訓練
- スポーツ
- 趣味・娯楽
- ボランティア活動
- 旅行・行楽
- 生活時間(睡眠、食事、仕事、家事、育児など)
- 平均時間(起床、朝食、夕食、就寝など)
このように、よく使われると思われる多くのデータが、この4つのデータセットに含まれているので、公的統計データをデータ分析のために使いたい場面に直面した場合は、e-Statを探しにいくより、このデータセットの中に含まれていないかを確認した方が効率的かもしれません。
SSDSEコンペティション
本SSDSEのデータを用いた統計分析を論文としてまとめ、そのアイデアと技術を競うコンペティション(コンペ)が毎年開催されているのも特徴のひとつです。
2020年のコンペの受賞論文が掲載されていたので、そのタイトルを紹介します。
- 観光消費額の地域間差異に関するパネルデータ分析
- ふるさと納税は地方創生の切り札になりえるか
- 階層ベイズモデルを用いた学力に対する教育費の費用対効果推定
- 第二期「まち・ひと・しごと総合戦略」における日本の目指すべき将来に向けた社会構造分析及び提案
- 人口増加と「住みやすい街」の関係
- 気温と脳卒中の発症リスクについて
- 観光業による観音寺市の少子高齢化による問題解決
- 自治体ごとのふるさと納税の必要性を定義する
最後の「自治体ごとのふるさと納税の必要性を定義する」なんかは、タイトルを見ただけでも読んでみたいと思えるような興味深いテーマですし、これら受賞した論文の中には高校一年生が書いた論文もあったりしました。すばらしい。
なお、過去のコンペの受賞論文はこちらのリンクから見ることができます。分析手法や理論展開など参考になる内容も多そうですので興味がある方はこちらも是非参照してみてください。
そんなコンペですが、現在、2021年のコンペの募集が始まっており、エントリー締め切りが令和3年8月10日、論文締め切りが9月1日(大学生・一般の部)と設定されているようです。
※2021年のコンペは募集およびコンペは終了済み
最優秀作品には、総務大臣賞・副賞(5万円相当)・月刊誌「統計」への論文掲載などの特典があるようです。
2020年度のコンペは、申し込み140件、論文提出78件と、倍率が高いというコンペということでもなさそうなので、副賞目的というよりは、学びながら実績づくりにも挑戦したいと考えている方は、チャレンジすることを考えてもいいのかもしれません。
じゃあ