文系ビジネスパーソンこそ統計学を学ぶべき理由の中で、経営や事業について知見のある文系ビジネスパーソンが「統計学」や「プログラミング」を学ぶことで、データサイエンティストとして即戦力になることをお話しました。
データ分析に優れていてもビジネスの知見がない人材は、「目標設定」、「考察」、「仮説立案」、「実行」、「リアクション」という一連のプロセスが実行できず、データ分析担当者としての存在価値が発揮できんません。それゆえ、統計学には長けているもののビジネスに知見のない人材をデータサイエンティストとして採用しても、「ビジネスの成功に強く影響する要因」がわかっていないため、的外れな分析をしてしまうことが起こり得るのです。
このような背景から、今後は文系ビジネスパーソンがデータサイエンティストを目指すという流れがより一層加速すると考えられます。これを踏まえて、今回は具体的にデータサイエンティストにどのようなスキルが必要なのかについてお話します。
データサイエンティストに必要な3つの力
一般社団法人データサイエンティスト協会と独立行政法人情報処理推進機構(IPA)が作成したガイドライン「データサイエンティストのためのスキルチェックリスト/タスクリスト概説」において、データサイエンティストに求められているスキルセットとして以下の3つが挙げられています。
・ビジネス力(business problem solving):課題背景を理解し、ビジネス課題を整理・解決に導く力
・データサイエンス力(data science):情報処理・人工知能・統計学などの情報科学系の知恵を理解し使う力
・データエンジニアリング力(data engineering):データサイエンスを意味のある形として扱えるようにして、実装・運用する力
図:データサイエンティストに求められるスキルセット(出典:データサイエンティストのためのスキルチェックリスト/タスクリスト概説)
これら3つのスキルについて、それぞれ詳しく見ていきましょう。
ビジネス力(business problem solving)
これは分かりやすく言うと、コンサルタントが持っているような能力です。会社の業績や売上、顧客獲得など、会社の経営に影響を与えうる課題を俯瞰して最重要課題を定義し、解決する一連のプロセスです。データサイエンティストは経営に影響を与え得る課題を見つけ出し、それを解決してこそ存在価値があるからです。
また、このスキルには第三者に説明やインタビュー、レポーティングをする能力も含まれています。特に社内での仕事においては自分一人だけで全ての課題を解決できるわけではないので、周りの部署からの協力を得るために説明が必要になります。さらに、その会社が実際に実行できるような解決策を提示することも大事であり、これらの能力を含めて「ビジネス力」と定義されています。これはまさに文系ビジネスパーソンが積み上げてきた能力と言えます。
データサイエンス力(data science)
これは簡単に言えば、統計学と数学の知識のことです。統計学は応用数学とも言われるように、数学を使って人間の日常生活の問題を解決しようという学問です。そのため、数学を応用したものが統計学であり、この2つはほぼイコールと考えて差し支えありません。
このデータサイエンス力というのは、完全に理系の知識であり、データサイエンスの参入障壁が高い理由はまさにここにあります。文系のWebエンジニアやシステムエンジニア、プログラマーは結構存在しますが、データサイエンティストにはこの能力が必要なために、高校数学や大学数学を学んでいない文系の人の参入が非常に難しく、人材が圧倒的に足りていない状態になっているのです。例え理系であっても、大学などで数学をきちんと学んだ人でないと習得が難しいです。
データエンジニアリング力(data engineering)
これはPythonとRという、データサイエンスにおいてデータ分析や予測モデルの構築に用いられるプログラム言語を使いこなせる力、プログラミングの能力です。Pythonは機械学習や深層学習(ディープラーニング)にも使えますが、それ以外にもJavaやRubyのようにサーバサイドのプログラム言語としても使ったりする汎用性の高い言語です。一方で、Rは統計に完全に特化した言語です。この2つはオープンソースソフトウェアのため無償で公開されており、利用や改変、再配布が許可されています。さまざまなデータが収集できる現在では分析対象のデータ量が数十万行程度になることも珍しくないため、エクセルなどでは処理が追いつきません。そのため、RやPythonといったプログラム言語を用いてコンピューターを使ってデータ加工やデータ分析加工をする必要があるのです。
RやPythonでは、先人が作った統計学でも用いられる分析手法(分析コード)が「ライブラリ」という形で数多く公開されているので、わざわざ自分でコードを書かなくてもそれを参照すれば様々な統計分析ができます。Web開発やシステム開発をしているプログラマーとは親和性の高い能力であり、文系の人でも身につけやすい能力です。データサイエンス力と比較しても、文系も理系も習得できる能力といえます。
3つのスキルセットをデザイナーの能力に置き換えて理解する
ここまでの説明をやや難しく感じたかもしれませんが、これらデータサイエンティストに必要な3つの力を、Webデザイナーの場合に置き換えて考えてみましょう。
まず、データエンジニアリング力はプログラミング言語というツールを使う力であり、Webデザイナーにとってはフォトショップを使う力に当たります。他方、データサイエンス力はデータ分析の根幹を成す部分であり、デザイナーにとってのスケッチ力、遠近法、影の付け方などのテクニック、デザイン力に当たります。これはフォトショップを使いこなす力とは別物の、そもそものデザイン能力の話です。ビジネス力はどのようなデザインが好まれるのか、高く売れるのか、人はどういうデザインが好きなのかをとらえる視点、デザインの意図を第三者にうまく説明できる能力といえます。
ビジネス力:デザインのニーズを汲み取る力、デザインの理由などを第三者に伝える力
データサイエンス力:スケッチ力、遠近法、影の付け方などのテクニック、デザイン力
データエンジニアリング力:フォトショップを使う力
デザインの基礎が身についていない人でも、フォトショップにはテンプレートが多く用意されているため、それを使えばある程度それらしいグラフィックデザインを作ることはできます。しかし、デザインの基礎を身につけているデザイナーと比べて、そのクオリティが異なることは想像に難くないでしょう。これと同じことがデータサイエンスの分野でも言えます。プログラム言語を扱うデータエンジニアリング力は、前述のとおり文系の人でも身に付けられます。PythonやRにも数多くの「ライブラリ」があるため、それを参照すればある程度それらしいデータ分析や予測モデルを構築できてしまいます。
しかし、数ある分析手法や予測モデル構築の中でなぜその手法が一番適しているのか、もっと他にいい手法がないのかと問われた際に納得のいく説明をすることは難しいでしょう。その「ライブラリ」を用いることでどのような処理がされているかは、データサイエンス力がない限り分かりません。数多くある分析手法や予測モデル構築からどれを選ぶか、どの統計的分析手法を組み合わせることで精度が高まるのかという仮説を作るに当たっては、データサイエンス力が必須なのです。文系の人にとっては、このデータサイエンス力があるかどうかで分析の質に差が出るのです。
まとめ:
データサイエンティストには「ビジネス力」「データサイエンス力」「データエンジニアリング力」という、文系と理系のハイブリッドともいえる3つのスキルセットが必要です。しかしながら、文系の人は「データサイエンス力」で、理系の人は「ビジネス力」でつまづいてしまいがちです。
これら3つを全てを兼ね備えることができれば、データサイエンティストとしての希少性がぐっと高まります。そのためには、それぞれの能力の強化が必要です。それぞれの能力についての学習ルートについは、別の記事でお話します。