「データサイエンティスト」という職業をご存知でしょうか?
アメリカの経営誌ハーバード・ビジネス・レビューで「今世紀でもっともセクシーな職業」だと評されるデータサイエンティストは、ビッグデータを読み解いてビジネスへ活かすためのキーマンとして大きな注目を浴びています。
私もIT業界でマーケティングに関わる身としては、データサイエンティストの仕事内容について大変興味を持っています。
今回ご紹介する本はそんなデータサイエンティストの仕事を解き明かす内容で、さらには友人が章の一つを担当しているという事もあり、発売を楽しみにしていました。
中身には統計学やプログラミング、マーケティングの用語が散りばめられており、データ分析には関わっているがIT知識がない方や、IT業界で働いているが技術的な知識がない方からすると、理解が難しい部分も多々あるかと思います。
私はといえばプログラミング歴10年、統計学の基礎知識はあり、現在マーケターとして仕事をしているのですが、知らない専門用語も多く思ったよりも理解が大変でした^^;
しかし、今だ謎に包まれているデータサイエンティストの仕事内容や求められるスキルについて知るという点においては、現時点でこれ以上の本はないと思うので、少しでも興味がある方はとりあえず買っておいて損はないかと思われます。
目次
■巻頭企画 データサイエンティストの仕事術
第1章 データサイエンティストに必要なスキル(佐藤)
第2章 データサイエンスのプロセス(原田)
第3章 「ビッグデータインフラ入門」(原田)
コラム データサイエンティスト協会の活動(橋本)
■特集1 データ分析実践入門
第1章 Rで統計解析をはじめよう(里)
第2章 データサイエンティストリテラシー(和田)
第3章 RStudioでらくらくデータ分析(和田)
第4章 Pythonによる機械学習(早川)
第5章 データマイニングに必要な10のアルゴリズム(倉橋)
■特集2 マーケティング分析本格入門
第1章 Rによるマーケティング分析(里)
第2章 mixiにおける大規模データマイニング事例(下田)
第3章 ソーシャルメディアネットワーク分析(大成)
■特別記事 Fluentd入門~ログ収集から活用まで(奥野)
■特別企画 データ分析のためにこれだけは覚えておきたい基礎知識
第1章 SQL入門(中川)
第2章 Webスクレイピング入門(中川)
巻頭企画 データサイエンティストの仕事術
データサイエンスは7つのプロセスに分けられます。
1.業務理解
2.データ理解
3.データ抽出
4.データ加工
5.モデリング
6.効果検証
7.サービス実装
これらのプロセスを反復して実行していくこと。
そしてビジネスの成果に結びつけることが、データサイエンティストには求められます。
このプロセスから見ても分かるとおり、データサイエンティスト幅広いスキルが求められます。
・IT系・分析系スキル
RDBMS関連、SQL、Hadoop関連、JAVA、HDFS関連、MapReduce関連、Hive、pig、Linuxコマンドなどに関する知識と経験
R、Python、Perl、Mahout、MADlib、Jubatusなどの言語に関する知識と経験
各種統計解析、各種機械学習に関する知識、SAS、SPSS、KXEN、KNIME、AlpineMinerなどのツールに関する知識と経験
・ビジネス系スキル
業界・業務に関する知識、質問力、理解力、伝達力、説得力、プロジェクト推進能力あどのコミュニケーションに関する能力
その多さに軽く目眩がしそうですが、これだけのスキルを持ち合わせている人はもちろん希少で、ニーズに対して人手が足りていない状況です。
現実的なところでは、いずれかのスキルを持っている人が他の分野の勉強をしながら身につけていくしかありません。
ただ、スキルも大事ですがデータサイエンティストとして一番大切なことは「好奇心を持つ」という事だと述べられています。
人並み外れた好奇心さえあれば、スキルは自ずと身について行くのかもしれません。
本書でも紹介されているデータサイエンティスト協会は、データサイエンティストとしてのキャリア形成や人材育成を目的として設立されました。
今後どのようにしてデータサイエンティストを育てていくのか、協会の活動に注目したいところです。
特集1 データ分析実践入門
特集1では、実際にどのようにデータを分析するのか、サンプルデータを元にR言語での分析方法などを紹介しています。
Rを使えば、データの中央値や平均値を瞬時に算出したり、ヒストグラムや散布図を描くことも可能です。
プログラミングの難易度はそれほど高くないので、基本的な操作ならプログラミング経験がなくてもわりと簡単に使えると思います。
便利な統合開発環境のRStudioの利用方法も紹介されており、さらに敷居を下げてくれるでしょう。
応用編として線形回帰モデル、ロジスティック回帰モデル、決定木モデルの構築方法なども紹介されていますが、このあたりは難易度高め。
難しい用語だらけで心が折れるかもしれませんが、とりあえずさらっと目を通すだけでもいいかもしれません。
特集2 マーケティング分析本格入門
特集2では、データ分析をマーケティングに活用する方法を紹介しています。
いくら素晴らしい分析をしたとしても、それがビジネスに役立てられなければ何の意味もありません。
市場はどのような人で構成されているか(セグメンテーション)、その中の誰をターゲットにし(ターゲティング)、どんなサービスや商品を提供するのか(ポジショニング)を決める戦略において、どのようにデータ分析を実施するのか具体的に紹介されています。
セグメンテーションにおいては、様々な属性データを元にk-means法を用いてクラスタリングする方法、ポジショニングにおいては、多次元尺度構成法によりマッピングする方法が記載されていますが、ここも理解には統計学の知識が必要。
まずは「こんな事もできるんだ」くらいでいいかもしれません。
Webマーケティングでは同じみの手法であるA/Bテストにも、統計学の知識が利用できます。
例えばパターンAのコンバージョン率が9.5%、パターンBのコンバージョン率が9.7%だった場合を考えてみましょう。
普通に考えるとパターンBを採用!という風になる訳ですが、この数値の差が偶然ではなく本当に意味のあるものなのかというのをカイ二乗検定という方法で調べることが可能です。
これはWebマーケターにとってはかなり画期的なことではないでしょうか。
この本を読んで、データサイエンティストの具体的な仕事内容のイメージがつかめました。
データ分析というと、どこかマニアックで無機質なイメージを持たれるかもしれませんが、今の情報化社会においてこれほど面白い仕事はないのかもしれません。
歯ごたえのある内容で理解するためにはもう少し熟読が必要そうなので、今後もコツコツ勉強していきたいと思います。好奇心を忘れずに。