データサイエンスを見渡す



★Rachel Schutt + Cathy O'Nail『データサイエンス講義』(瀬戸山雅人+石井弓美子+河内崇+河内真理子+古畠敦+木下哲也+竹田正和+佐藤正士+望月啓充訳、オライリー・ジャパン、2014/10、ISBN:4873117011
 Rachel Schutt + Cathy O'Nail, Doing Data Science (O'Reilly Media, 2013/11, ISBN:1449358659)


Google Researchで統計学者として働いた経歴を持つレイチェル・シャットが、コロンビア大学で行った講義「データサイエンス入門」に基づく書籍。


講義は、毎回テーマごとにゲスト講師を招いて行われたとのことで、下記の目次をご覧になるとお分かりのように、多彩な内容となっている。


専門学校や大学などで、ゲームデザインやプログラミングについて教える中で、データサイエンスのよい教科書はないかと思っていたところ。


というのも、昨今のインターネットを活用した各種ゲームでは、ゲーム上で(サーバー上で)プレイヤーがとる様々な行動や選択についてのデータを蓄積している。そうして蒐集された厖大なデータを、適切に扱って、将来のゲームデザインにつなげることが重要なポイントになっている。


他方で、そうしたデータを扱うために必要な知識や技能は多岐にわたっており、学生たちにそのことをしっかり教えトレーニングする体制は十分整っているとはいえない状況に見える。


無理もないと思う。管見では、この領域は、従来の文系/理系という分類にはなじまない側面を持っている。そもそも或るデータ群をどのような観点から眺め、どのようなデータを抽出するかという問題設定をするには、人間や社会への理解や観点が問われることになるだろう。そこには心理学、認知科学社会学、政治学、哲学といった領域が関わるはずだ。


また、そうして立てた問題や仮説を適切に扱うためには、問題を抽象化し、モデルをつくり、プログラムを書き、結果を表現するために必要な各種知識や技能が必要となる。統計学や数学をはじめ、計算機科学、ユーザーインターフェイス設計などの数理的学術が関わっている。


というわけで、一口に「データサイエンス」(データを対象とする学問)といっても、そこに隣接する既存の領域はさまざまである。まさに、或る問題に対して、既存の知識と技術を、いかに総合的に理解し、使いこなしながら、解法を組み立てるかということが問われている。


そうした超領域、脱領域的なものであるだけに、これを1冊の教科書でしっかり押さえることは容易ではない。そこへもってきて本書は、そうした広がりを視野に入れるうえでうってつけの入門である。最近、学生のみなさんに「眺めておくといいよ」とお勧めしている次第。


詳細な目次は、版元のページに掲載されている(さすがオライリー・ジャパン!)ので、ここでは章立てをお示ししよう。


■目次

訳者まえがき
まえがき


1章 はじめに:データサイエンスとは
2章 統計的推論、探索的データ分析、データサイエンスのプロセス
3章 アルゴリズム
4章 スパムフィルタ、単純ベイズ、データラングリング
5章 ロジスティック回帰
6章 タイムスタンプと金融モデリング
7章 データから意味を抽出する
8章 レコメンデーションエンジン:ユーザが直接触れる大規模データ製品を構築する
9章 データ可視化と不正検出
10章 ソーシャルネットワークデータジャーナリズム
11章 因果関係
12章 疫学
13章 データ分析のコンペティションから得られた教訓:データのリークとモデルの評価
14章 データエンジニアリング:MapReduce, Pregel, Hadoop
15章 生徒たちの声
16章 次世代のデータサイエンティスト、データに対する過信と倫理
索引


余談だが、こういう本の中でガブリエル・タルドフランコモレッティの名前が並ぶのを見かけるのは、なんとも愉快なことだ。


■書誌

著者:Rachel Schutt + Cathy O'Nail
書名:データサイエンス講義
原著:Doing Data Science (O'Reilly Media, 2013)
訳者:瀬戸山雅人+石井弓美子+河内崇+河内真理子+古畠敦+木下哲也+竹田正和+佐藤正士+望月啓充
頁数:420+xxxi
価格:3000円+税
版元:オライリー・ジャパン
刊行:2014年10月28日


オライリー・ジャパン > 『データサイエンス講義』
 http://www.oreilly.co.jp/books/9784873117010/