ビッグデータ テクノロジー完全ガイド | マイナビブックス

ビッグデータ テクノロジー完全ガイド

  • 著作者名:Michael Manoochehri
  • 翻訳者名:小林啓倫
    • 書籍:3,300円
    • 電子版:3,300円
  • A5判:288ページ
  • ISBN:978-4-8399-5312-6
  • 発売日:2014年11月22日
  • 備考:中級/Win&Mac&UNIX
  • mixiチェック
  • このエントリーをはてなブックマークに追加

内容紹介

「ビッグデータ技術のいま」を掴む。データハッカーである著者が実践的にアドバイス。

「ビッグデータ技術のいま」を掴む。
ビッグデータの分析システムを構築するためのツールやテクニック、ポイントについて、Google Cloud Platformチームに所属したデータハッカーである著者が実践的にアドバイスします。

まずビッグデータ・システムを成功させるためのガイドラインと、NoSQLや分散コンピューティング、CAP定理の基礎知識を解説します。そしてHadoopやHiveを使った大規模な分析や、BigQueryを使ったリアルタイム分析の基礎にも触れます。MapReduceパイプラインやPig、Cascading、Mahoutを使った機械学習といった、より高度なトピックについてもカバーしていますし、最終的にはPythonとRを組み合わせたビッグデータを処理するツールチェーンの構築について解説します。またそれぞれの解説と共にツール類を理解するのに役立つサンプルも収めました。
ビッグデータの主要な課題に対して複数のテクノロジーを効率的に組み合わせ、コストを低く抑えるための最良の選択肢について伝授していきます。

電子版の購入は姉妹サイト「IT書籍ストア Manatee」がオススメ!
充実のラインナップに加え、割引セールも定期的に実施中!

商品を選択する

フォーマット 価格 備考

電子書籍フォーマットについて

  

備考

マイケル・マヌーチェッリはグーグルのデベロッパープログラム・エンジニア。「Google Cloud Platform」においてBigQuery API のユーザーサポートを務めるなど、大量データ処理技術と、その普及・ユーザー教育の分野で活動してきた。またウェブサイト「ProgrammableWeb.com」でライターを務めるなど執筆活動も積極的に行っており、グーグルにおいてもブログ等で対外的な情報発信を行っている。カリフォルニア大学バークレー校の情報学大学院において情報マネジメント/情報システムの修士号を取得。

関連ページ

目次

訳者より
まえがき
はじめに
本書の想定読者
インターネット・オブ・エブリシング
ユビキタスコンピューティングへの道
本書の構成
 
第1部 ビッグデータ時代の方向性
第1章 データで成功するための4つのルール
データが重要になる時
データと単一サーバー
ビッグデータのトレードオフ
ビッグデータパイプラインの解剖学
究極のデータベース
まとめ
 
第2部 大量データの収集と共有
第2章 テラバイト級ローデータの保管と共有
ファイルに苦しめられる
ストレージ:インフラストラクチャー・アズ・ア・サービス
適切なデータ形式の選択
文字コード
データの転送:データシリアライゼーション形式
まとめ
 
第3章 データ収集ウェブアプリをNoSQLベースで開発する
リレーショナル型データベース:指揮統制型モデル
リレーショナル型データベース対インターネット
非リレーショナル型データベースモデル
書き込みのパフォーマンスを重視する:Redis
大量のRedisインスタンスを複数マシンに分散させる
NewSQL:コッドの帰還
まとめ
 
第4章 データのサイロ化に対抗する戦略
専門用語でいっぱいのウェアハウス
Hadoop:ウェアハウスの中の象
データサイロがメリットになる可能性
コンバージェンス:データサイロの終焉
まとめ
 
第3部 手にしたデータを分析する
第5章  Hadoop, Hive, Sharkを利用して大規模なデータセットを分析する
データウェアハウスとは何か?
Apache Hive:Hadoop用のインタラクティブクエリ
Shark:RAM並みの速さでクエリを実行する
クラウド上のデータウェアハウス
まとめ
 
第6章 BigQueryを利用してデータダッシュボードを構築する
分析データベース
Dremel:新たな可能性
BigQuery:サービスとしてのデータ分析
独自のデータダッシュボードをつくる
分析クエリエンジンの未来
まとめ
 
第7章 大量データ分析におけるビジュアル化の戦略
データをストーリーに変える取り組み
人間にとっての分かりやすさ
インタラクティブなアプリケーションを開発する
まとめ
 
第4部 データパイプラインを構築する
第8章 処理を統合する― MapReduceデータパイプライン
データパイプラインとは何か
Hadoop Streamingでデータパイプラインを構築する
ワンステップのMapReduceによるデータ変換
複雑な作業を管理する:Hadoop向けのPython MapReduceフレームワーク
まとめ
 
第9章  PigとCascadingでデータ変換ワークフローを構築する
実際の大規模データ処理ワークフロー
複雑な話:MapReduceによる複数ステップのデータ変換
Cascading:堅牢性のあるデータワークフローを構築する
PigとCascadingのどちらを選ぶか
まとめ
 
第5部 大量データにおける機械学習
第10章 Mahoutを利用してデータ分類システムを構築する
機械は未来を予測できるか?
機械学習の課題
Apache Mahout:スケーラブルな機械学習の実現
MLbase:分散処理による機械学習のフレームワーク
まとめ
 
第6部 大量データの統計分析
第11章 Rで大量データを分析する
なぜ統計学がセクシーなのか
大規模データセットを扱う戦略
まとめ
 
第12章  PythonとPandasを利用して分析ワーク
フローを構築する
データに潜むヘビ
データ処理のためのPythonライブラリ
より複雑なワークフローを構築する
iPython:科学計算ツールチェーンを構築する
まとめ
 
第7部 データ分析技術のこれから
第13章 開発・購入・アウトソースの判断
重なり合うソリューション
自分が直面している問題を理解する
「構築か購入か」を決めるための戦略
プライベートのデータセンター
オープンソース技術のコストを把握する
あらゆるものがサービスになる
まとめ
 
第14章 未来を考える― データ技術のトレンド
破壊的な、そして破壊されるイノベーションとしてのHadoop
すべてがクラウド上に
データサイエンティストの盛衰
収束する技術:究極のデータベースとは
収束する文化
まとめ
 

最近チェックした商品

Tポイント利用手続き

         Tポイント利用手続きに関する同意事項

                                株式会社マイナビ出版

株式会社マイナビ出版が提供するマイナビBOOKSにおいてTポイントご利用続きをされる方は、以下に掲げるお客様の個人情報の取り扱いについてご確認の上、ご同意下さい。

マイナビBOOKSにおいてTポイントサービスをご利用いただいた場合に、当社から、次に掲げる<提供情報>を、<提供目的>のためにCCCMKホールディングス株式会社(以下、「MKHD」といいます)へ提供します。

  <提供目的>:MKHDの定める個人情報保護方針及びマイナビBOOKSにおけるT会員規約第4条に定める利用目的で利用するためTポイントサービスを利用するため
  <提供情報>:
   1)お客様が【マイナビBOOKS】の正当な利用者であるという情報
   2)ポイント数・利用日
   3)その他、Tポイントサービスを利用するにあたり必要な情報

  <提供方法>: 電磁的記録媒体の送付またはデータ通信による。ただし、提供するデータについては暗号化を施すものとする。

なお、MKHDに提供された、以下の情報の利用については、MKHDの定める個人情報保護方針及びT会員規約 に沿って取り扱われます。
上記の情報提供の停止をご希望される場合には、【マイナビBOOKS】におけるTポイント利用手続きの解除を実施していただく必要があります。
Tポイント利用手続きの解除、およびTポイントサービスにおける個人情報に関するお問い合わせ先は、以下のとおりです。
お客様お問い合わせ先:Tサイト(https://tsite.jp/contact/index.pl )

 なお、Tポイント利用手続きの解除が完了しますと、マイナビBOOKSにおけるTポイントサービスをご利用いただけなくなりますので、予めご了承ください。

Tポイント利用手続きを行いますか?