別記事「統計検定2級の知識でDS協会スキルチェックリストをどの程度カバーできるのか調べてみた」では、データサイエンティスト検定リテラシーレベル(以下DS検定)の試験において、どれだけ統計検定2級の知識が活かせるかを調べた結果を紹介しました。
では、その反対で、統計検定2級では学ばなかったけれど、DS検定で学べた知識には、どのようなものがあるのでしょうか?
ということで、今回の記事は、
- 統計検定2級では学ばないが、DS検定で学べる知識(専門用語)を知りたい
あるいは
- 統計検定2級✖️データサイエンスは学んでいるけど、DS検定で学べる知識と、現在の自分の知識とのギャップを知りたい
という人に向けて、「統計検定2級では登場しないDS検定の知識159選」と題して、調べてみた内容を紹介していきます。
統計検定2級では登場しないDS検定の知識159選
DS検定の出題範囲と専門用語159選
DS検定の出題範囲は、大きく下記2つから構成されます。
- データサイエンティスト協会(以下DS協会)が発行する「スキルチェックリスト」の中で★ひとつの項目
- 数理・データサイエンス教育強化拠点コンソーシアムより「数理・データサイエンス・AIモデルカリキュラム」のコア学習項目
そして、DS協会が発行するスキルチェックリストの中には、下記3つのスキルセットのカテゴリから構成されます。
- ビジネス力
- データサイエンス力
- データエンジニアリング力
今回の記事でも、技術評論社から出版される「最短突破データサイエンティスト検定
本159選において、主要な専門用語は抽出しておりますが、全ての専門用語を抽出しているわけではありません。
また、ビジネス力で扱われる知識の中で、用語として定義されていないビジネス上の概念(考え方)のような知識は、本159選からは除外しております。
1. ビジネス力・20選
はじめに「ビジネス力」カテゴリを見ていきます。
別記事でも紹介した通り、統計検定2級の知識でカバーできる「ビジネス力」の項目の割合は5%であり、多くの内容は統計検定2級では学ばない内容となります。
そして、統計検定2級では登場しないDS検定「ビジネス力」の専門用語20選は次の通りです。
- 1. KPI
- 2. KGI
- 3. ELSI
- 4. CCPA
- 5. GDPR
- 6. 改正個人情報保護法
- 7. 要配慮個人情報
- 8. 仮名加工情報
- 9. 匿名加工情報
- 10. 請負契約
- 11. 準委任契約
- 12. MECE
- 13. 5フォース分析
- 14. ウォータフォール開発
- 15. スクラム
- 16. XP
- 17. FDD
- 18. アジャイル開発
- 19. WBS
- 20. SLA
ぱっと見て、英略語が多いことがわかります。
また、「ビジネス力」カテゴリの内容は、専門用語そのものを問われる内容よりは、ビジネス上におけるデータの価値や、データのあり方などの考え方を問われる内容が多いことから、ピックアップできる専門用語の数は限られた数となりました。
なお、著者にとっては、仮名加工情報と匿名加工情報あるいは要配慮個人情報の違いは一度では覚えることができず、苦労しました。
2. データサイエンス力・81選
つぎに「データサイエンス力」カテゴリを見ていきます。
別記事でも紹介した通り、統計検定2級の知識でカバーできる「データサイエンス力」の項目の割合は36%であり、3つのスキルカテゴリの中では、統計検定2級の知識を最も多く活かせるカテゴリとなります。
そして、統計検定2級では登場しないDS検定「データサイエンス力」の専門用語81選は次の通りです。
基礎数学
- 21. スピアマンの順位相関
- 22. ベクトル
- 23. ゼロ行列
- 24. 単位行列
- 25. 逆行列
- 26. 固有値
- 27. 固有ベクトル
- 28. 偏微分
- 29. 偏導関数
基礎数学で問われる知識は、確率・微分積分など高校の数学で学ぶ内容に加えて、大学1年次などに学ぶ線形代数(ベクトル)などが主となります。
著者にとって、確率は統計検定2級でも学んだ内容だったので学び直しの必要はありませんでしたが、ベクトルは統計検定2級で扱われない内容なので、ここは学び直しの必要がありました。
予測
- 30. 重相関係数
- 31. 多重共線性
- 32. ROC曲線
- 33. AUC
- 34. TP(真陽性)
- 35. TN(真陰性)
- 36. FP(偽陽性)
- 37. FN(偽陰性)
- 38. 正解率
- 39. 適合率
- 40. 再現率
- 41. F値
- 42. ホールドアウト法
- 43. 交差検証法
統計検定2級では「回帰分析」「重回帰分析」などを学びますが、それら内容に加えてDS検定では、上記のキーワードが登場します。
実際に計算させる問題は少ないですが、正解率や適合率などは公式を覚える必要のある内容となります。
データ可視化
- 44. アンサンブル平均
- 45. データインク比
- 46. データ濃度
- 47. 定量属性数
- 48. 定性属性数
- 49. ボロノイ図
- 50. ドロネー図
- 51. 並行座標プロット
- 52. ARIMA
- 53. ARIMAX
- 54. 状態空間モデル
データ可視化で問われる知識は、基本的なグラフの種類や、それぞれのグラフをどのようなシーンで用いるべきかの基本的な内容も多いため、普段から報告書等でグラフを作成しているビジネスパーソンであれば、難なく理解&解ける内容が多いと言えます。
一方で、上に記載したような耳慣れないだろうキーワードもあるので、新たに学ぶ必要のある項目もありました。
機械学習法
- 55. ロジスティック回帰
- 56. k近傍法(k-means法)
- 57. サポートベクタマシン
- 58. ニューラルネットワーク
- 59. 決定木
- 60. ランダムフォレスト
- 61. 勾配ブースティング
- 62. 強化学習
- 63. 主成分分析
- 64. アソシエーション分析
- 65. 敵対的生成ネットワーク
- 66. 過学習
- 67. オーバーフィッティング
- 68. 汎用誤差
- 69. 過剰適合
- 70. 正則化
- 71. 次元の呪い
- 72. 次元圧縮
- 73. アノテーション
- 74. タグづけ
- 75. バウンディングボックス
- 76. 半教師あり学習
- 77. アクティブラーニング
- 78. アルゴリズムバイアス
- 79. 透明性の原則
- 80. 大域的な説明
- 81. 局所的な説明
機械学習は、統計検定2級では範囲に含まれないため、多くの専門用語がピックアップしました。
分析手法(アルゴリズム)については、それぞれ手法の違いなどを理解できているかどうかがポイントになります。
なお、k-means法については別記事「データ分析で使われるクラスタリングとは?」でも紹介しています。
言語・画像・動画処理
- 82. クリーニング処理
- 83. ステミング
- 84. 形態素解析
- 85. 係受け解析
- 86. MeCab
- 87. Janome
- 88. JUMAN
- 89. KNP
- 90. CaboCha
- 91. ジャギー
- 92. エイリアシング
- 93. 量子化
- 94. OpenCV
- 95. サンプリングレート
言語・画像・動画処理についても、統計検定2級では扱われない内容となります。
言語処理の中の形態素解析や解析ツールについては、別記事「SNSや口コミデータの分析で使える形態素解析について」でも紹介しています。
その他
- 96. インフォデミック
- 97. エビデンスベースト
- 98. 共起頻度
- 99. 信頼度
- 100. 指示度
- 101. リフト値
ということで、統計検定2級では登場しないDS検定「データサイエンス力」の専門用語81選を紹介しました。
リストだけ見ていってもボリュームが多いことが読み取れますが、結果的には「データサイエンス力」カテゴリは、統計検定2級の知識を活かせる内容が多い判明、統計検定2級では問われなかった内容も非常に多いことがわかりました。
3. データエンジニアリング力
最後に「データエンジニアリング力」カテゴリを見ていきます。
別記事でも紹介した通り、統計検定2級の知識でカバーできる「データエンジニアリング力」の項目の割合は5%であり、また「ビジネス力」とは異なり、ビジネスパーソンが備える教養だけでは解けない内容も多いことから、新たな知識を最も学ぶことになるカテゴリとなります。
そして今回「データエンジニアリング力」カテゴリから選んだ専門用語は58選は次の通りです。
環境構築
- 102. 拡張性(スケーラビリティ)
- 103. 高可用性(アベイラビリティ)
- 104. ホットスタンバイ
- 105. コールドスタンバイ
- 106. ウォームスタンバイ
- 107. フルバックアップ
- 108. 差分バックアップ
- 109. 増分バックアップ
- 110. オープンデータ
データ収集・データ構造
- 111. SDK
- 112. JDK
- 113. API
- 114. Webクローラー
- 115. スクレイピング
- 116. 通信プロトコル(HTTP、HTTPS、FTP、SSH、Telnetなど)
- 117. 構造化データと非構造化データ
- 118. ER図
- 119. エンティティ
- 120. アトリビュート
- 121. リレーションシップ
- 122. データベースの正規化(第一正規化、第二正規化、第三正規化)
著者にとって、理解に時間の要した内容のひとつがデータベースの正規化でした。ここは書籍だけでは完全に理解できなかったためYouTubeで理解を深めました。
なお、スクレイピングについては別記事「ウェブスクレイピングのメリットと注意点」でも紹介しています。
データ蓄積・データ加工・データ共有ほか
- 123. DWH
- 124. Hadoop
- 125. Spark
- 126. HDFS
- 127. YARN
- 128. MapReduce
- 129. RDD
- 130. SQL
- 131. NoSQL
- 132. HBase
- 133. 正規表現
- 134. SQL DML文の基本(SELECT、INSERT、UPDATE、DELETE)
- 135. SQL DML文の基本構文(FROM、JOIN、WHERE、GROUP BY、HAVING、EXISTS、CASE)
- 136. 内部結合、外部結合、自己結合
- 137. クレンジング処理
- 138. マッピング処理
- 139. スロー・チェンジ・ディメンション
- 140. サンプリング処理
- 141. Python
- 142. R
- 143. Jupyter Notebook
- 144. RStudio
- 145. データ型(数値型、文字型、日付型)
- 146. データフォーマット(CSV、TSV、XML、JSON、EXCEL)
- 147. REST
- 148. SOAP
- 149. FTP
- 150. BIツール
著者にとって、今回のDS検定の試験勉強を進めるうえで、最も初学となる項目が多かった範囲は、本データベース周りの知識を含む本範囲でした。
なお、正規化については別記事「データエンジニア必須スキルの正規表現のすすめ」、Jupyter Notebookについては別記事「Jupyter Notebookの5つの特徴と注意点」でそれぞれ紹介しています。
ITセキュリティ
- 151. セキュリティ3要素(機密性、完全性、可用性)
- 152. CIA
- 153. マルウェア(コンピューターウイルス、ワーム、トロイの木馬、スパイウエア)
- 154. 共通鍵暗号方式、公開暗号方式
- 155. 共通鍵、秘密鍵、公開鍵
- 156. SSL
- 157. 電子署名
- 158. 公開鍵認証基盤
- 159. ハッシュ関数
ということで、統計検定2級では登場しないDS検定「データエンジニアリング力」の専門用語58選を紹介しました。
DS検定の専門用語に関する出題方法は2つ
ここまでDS検定で登場する専門用語を紹介してきましたが、実際のDS検定の試験においては、本知識(専門用語)は次のいずれかの形で出題されます。
- 4つの選択肢から適切な専門用語を選ばせる設問
- ある専門用語の意味や使われ方を問われる設問
よって、DS検定においては、それぞれの専門用語の意味を理解しておくことが重要と言えます。
一方では、英略語の正式名称を問われるような問題は少ないかもしれません。
(たとえばSQLの正式名称としてStructured Query Languageと選ばせるような設問)
まとめ
今回の記事では「統計検定2級では登場しないDS検定の知識159選」というテーマで、
- 「ビスネス力」より20選
- 「データサイエンス力」より81選
- 「データエンジニアリング力」より58選
の専門用語を紹介しました。
また、試験においては「適切な用語を選ばせる問題」と「用語の意味を選ぶ問題」の出題パターンが多いことから、各専門用語の意味を理解することが試験対策のポイントと言えます。
ということで、統計検定2級を学んだ人において、
- 知らない用語が多かったという人にとって、DS検定は、学びの伸びしろがある資格試験
- 知っている用語が多かったという人にとって、DS検定は、チャレンジしやすい資格試験
と言えるのかもしれません。
この記事があなたの次の学びのきっかけの一つになれば幸いです。
じゃあ。