ビッグデータテクノロジー完全ガイド

マイナビ出版

Michael Manoochehri（著者）、小林啓倫（翻訳）

「ビッグデータ技術のいま」を掴む。データハッカーである著者が実践的にアドバイス。

「ビッグデータ技術のいま」を掴む。

ビッグデータの分析システムを構築するためのツールやテクニック、ポイントについて、Google Cloud Platformチームに所属したデータハッカーである著者が実践的にアドバイスします。

まずビッグデータ・システムを成功させるためのガイドラインと、NoSQLや分散コンピューティング、CAP定理の基礎知識を解説します。そしてHadoopやHiveを使った大規模な分析や、BigQueryを使ったリアルタイム分析の基礎にも触れます。MapReduceパイプラインやPig、Cascading、Mahoutを使った機械学習といった、より高度なトピックについてもカバーしていますし、最終的にはPythonとRを組み合わせたビッグデータを処理するツールチェーンの構築について解説します。またそれぞれの解説と共にツール類を理解するのに役立つサンプルも収めました。ビッグデータの主要な課題に対して複数のテクノロジーを効率的に組み合わせ、コストを低く抑えるための最良の選択肢について伝授していきます。

発売日：2014-11-22

ページ数：288ページ

訳者より
まえがき
はじめに
本書の想定読者
インターネット・オブ・エブリシング
ユビキタスコンピューティングへの道
本書の構成

第1部　ビッグデータ時代の方向性
第1章　データで成功するための4つのルール
データが重要になる時
データと単一サーバー
ビッグデータのトレードオフ
ビッグデータパイプラインの解剖学
究極のデータベース
まとめ

第2部　大量データの収集と共有
第2章　テラバイト級ローデータの保管と共有
ファイルに苦しめられる
ストレージ：インフラストラクチャー・アズ・ア・サービス
適切なデータ形式の選択
文字コード
データの転送：データシリアライゼーション形式
まとめ

第3章　データ収集ウェブアプリをNoSQLベースで開発する
リレーショナル型データベース：指揮統制型モデル
リレーショナル型データベース対インターネット
非リレーショナル型データベースモデル
書き込みのパフォーマンスを重視する：Redis
大量のRedisインスタンスを複数マシンに分散させる
NewSQL：コッドの帰還
まとめ

第4章　データのサイロ化に対抗する戦略
専門用語でいっぱいのウェアハウス
Hadoop：ウェアハウスの中の象
データサイロがメリットになる可能性
コンバージェンス：データサイロの終焉
まとめ

第3部　手にしたデータを分析する
第5章　 Hadoop, Hive, Sharkを利用して大規模なデータセットを分析する
データウェアハウスとは何か？
Apache Hive：Hadoop用のインタラクティブクエリ
Shark：RAM並みの速さでクエリを実行する
クラウド上のデータウェアハウス
まとめ

第6章　BigQueryを利用してデータダッシュボードを構築する
分析データベース
Dremel：新たな可能性
BigQuery：サービスとしてのデータ分析
独自のデータダッシュボードをつくる
分析クエリエンジンの未来
まとめ

第7章　大量データ分析におけるビジュアル化の戦略
データをストーリーに変える取り組み
人間にとっての分かりやすさ
インタラクティブなアプリケーションを開発する
まとめ

第4部　データパイプラインを構築する
第8章　処理を統合する― MapReduceデータパイプライン
データパイプラインとは何か
Hadoop Streamingでデータパイプラインを構築する
ワンステップのMapReduceによるデータ変換
複雑な作業を管理する：Hadoop向けのPython MapReduceフレームワーク
まとめ

第9章　 PigとCascadingでデータ変換ワークフローを構築する
実際の大規模データ処理ワークフロー
複雑な話：MapReduceによる複数ステップのデータ変換
Cascading：堅牢性のあるデータワークフローを構築する
PigとCascadingのどちらを選ぶか
まとめ

第5部　大量データにおける機械学習
第10章　Mahoutを利用してデータ分類システムを構築する
機械は未来を予測できるか？
機械学習の課題
Apache Mahout：スケーラブルな機械学習の実現
MLbase：分散処理による機械学習のフレームワーク
まとめ

第6部　大量データの統計分析
第11章　Rで大量データを分析する
なぜ統計学がセクシーなのか
大規模データセットを扱う戦略
まとめ

第12章　 PythonとPandasを利用して分析ワーク
フローを構築する
データに潜むヘビ
データ処理のためのPythonライブラリ
より複雑なワークフローを構築する
iPython：科学計算ツールチェーンを構築する
まとめ

第7部　データ分析技術のこれから
第13章　開発・購入・アウトソースの判断
重なり合うソリューション
自分が直面している問題を理解する
「構築か購入か」を決めるための戦略
プライベートのデータセンター
オープンソース技術のコストを把握する
あらゆるものがサービスになる
まとめ

第14章　未来を考える― データ技術のトレンド
破壊的な、そして破壊されるイノベーションとしてのHadoop
すべてがクラウド上に
データサイエンティストの盛衰
収束する技術：究極のデータベースとは
収束する文化
まとめ

著者プロフィール

絶賛！発売中！

書籍一覧へ

購入形態

ビッグデータ テクノロジー完全ガイド

「ビッグデータ技術のいま」を掴む。データハッカーである著者が実践的にアドバイス。

ビッグデータテクノロジー完全ガイド