マナティ

購入形態

PDF
3,740円
数量:

カートに追加されました。カートを見る

カートに入れる
紙の本を買う

Machine Learning実践の極意 機械学習システム構築の勘所をつかむ!

インプレス

先鋭たちによる直伝!機械学習ワークフロー現場のノウハウ

機械学習システム構築で経験を積んだ先鋭たちによる執筆! MLワークフローの基礎と実践ノウハウを解説―本書の中心テーマは、理論や数式、コーディングではありません。機械学習ワークフローにおける作業の基礎と応用について解説します。ワークフローはプロジェクト全体の流れを形作るものであり、成果物としてよりよいシステムの構築を目的とします。本書の前半は、ビジネス上の機械学習の利点や課題のほか、データの収集/整備、モデルの構築/評価/最適化など各作業の基本的な考え方を説明。後半は、実データによるケーススタディや予測スループットの改善、大容量データへの対応など応用力の強化を目的に解説します。機械学習ワークフローの全容を見通したい方、改めて理解しておきたい方などにお勧めの一冊です。―原著への読者の声―「よく書かれたオリジナルな本」「データと機械学習のベストプラクティスを提示」― ※本書は『Real-World Machine Learning』の翻訳書です。Pythonについては一定の知識がある方を想定しています。

発売日:2017-11-17

ページ数:328ページ

目次

表紙
商標と正誤表について
口絵
本書に寄せて
まえがき
謝辞
はじめに
PartⅠ 機械学習ワークフローの基礎
第1章 機械学習とは何か?長所と課題、データ収集から運用までのステップ、性能の改善
1.1 機械学習の仕組みを理解する
1.2 データに基づく意思決定
1.2.1 従来のアプローチ
1.2.2 機械学習のアプローチ
1.2.3 機械学習の5つの利点
1.2.4 機械学習の課題
1.3 機械学習ワークフロー:データから展開まで
1.3.1 データの収集と準備
1.3.2 データからモデルを学習する
1.3.3 モデルの性能を評価する
1.3.4 モデルの性能を最適化する
1.4 高度な手法を使ってモデルの性能を改善する/1.4.1 データの前処理と特徴エンジニアリング
1.4.2 オンライン学習を使ってモデルを継続的に改善する
1.4.3 データのサイズと発生量に基づくモデルのスケーリング/1.5 まとめ
1.6 本章のキーワード
第2章 現実世界のデータ?データの取得/整備、可視化
2.1 機械学習に取り組むための準備:データの収集
2.1.1 トレーニングセットに追加すべき入力特徴量はどれか
2.1.2 目的変数のグラウンドトルースを取得するにはどうすればよいか
2.1.3 トレーニングデータの量はどれくらい必要か
2.1.4 トレーニングセットの典型性は十分か
2.2 機械学習モデルを構築するためのデータの前処理/2.2.1 カテゴリ値の特徴量
2.2.2 欠測値への対処
2.2.3 単純な特徴エンジニアリング
2.2.4 データの正規化
2.3 データビジュアライゼーションの使用
2.3.1 モザイク図
2.3.2 箱ひげ図
2.3.3 密度図
2.3.4 散布図
2.4 まとめ
2.5 本章のキーワード
第3章 モデルの構築と予測
3.1 基本的な機械学習モデルの構築
3.1.1 入力特徴量と目的変数の関係を突き止める
3.1.2 よいモデルを突き止めるために
3.1.3 モデル構築手法の種類
3.1.4 教師あり学習と教師なし学習
3.2 分類:カテゴリを予測する
3.2.1 分類器の構築と予測値の出力
3.2.2 複雑な非線形データの分類
3.2.3 複数のクラスに分類する
3.3 回帰:数値を予測する
3.3.1 回帰器の構築と予測値の出力
3.3.2 複雑な非線形データでの回帰
3.4 まとめ
3.5 本章のキーワード
第4章 モデルの評価と最適化
4.1 モデルの汎化:新しいデータでの予測性能の評価
4.1.1 問題:過学習と楽観的なモデル
4.1.2 解決策:交差検証
4.1.3 交差検証を使用するときの注意点/4.2 分類モデルの評価
4.2.1 クラスごとの正解率と混同行列
4.2.2 予測性能のトレードオフとROC曲線
4.2.3 多クラス分類モデルの評価
4.3 回帰モデルの評価
4.3.1 回帰モデルの単純な性能指標を使用する
4.3.2 残差を調べる
4.4 チューニングパラメータによるモデルの最適化/4.4.1 機械学習のアルゴリズムとチューニングパラメータ
4.4.2 グリッドサーチ
4.5 まとめ
4.6 本章のキーワード
第5章 特徴エンジニアリングの基礎/5.1 特徴エンジニアリングはなぜ有効なのか
5.1.1 特徴エンジニアリングとは何か/5.1.2 特徴エンジニアリングを使用する5つの理由
5.1.3 特徴エンジニアリングと専門知識
5.2 特徴エンジニアリングの基本的なプロセス
5.2.1 例:イベントレコメンデーション
5.2.2 日付と時刻の特徴量の処理
5.2.3 単純なテキスト特徴量の操作
5.3 特徴選択
5.3.1 変数増加法と変数減少法
5.3.2 データ探索のための特徴選択
5.3.3 例:現実世界での特徴選択
5.4 まとめ
5.5 本章のキーワード
PartⅡ 機械学習ワークフローの応用
第6章 NYCタクシーデータのケーススタディ
6.1 NewYorkCityTaxiTrips/Faresデータ
6.1.1 データを可視化する
6.1.2 問題を定義し、データを準備する
6.2 モデルの構築/6.2.1 基本的な線形モデル
6.2.2 非線形分類モデル
6.2.3 カテゴリ値の特徴量を使用する
6.2.4 日時を表す特徴量を使用する
6.2.5 モデルの知見
6.3 まとめ
6.4 本章のキーワード
第7章 高度な特徴エンジニアリング/7.1 高度なテキスト特徴量
7.1.1 BoWモデル
7.1.2 トピックモデルの構築
7.1.3 内容の拡張
7.2 画像特徴量/7.2.1 単純な画像特徴量
7.2.2 物体と形状を抽出する
7.3 時系列特徴量
7.3.1 2種類の時系列データ
7.3.2 時系列データでの予測
7.3.3 従来の時系列データの特徴量
7.3.4 イベントストリームの特徴エンジニアリング
7.4 まとめ
7.5 本章のキーワード
第8章 高度な自然言語処理の例?映画レビューの感情分析
8.1 データとユースケースを調べる/8.1.1 第一印象でのデータセット
8.1.2 データセットを調べる
8.1.3 ユースケースは何か
8.2 基本的なNLP特徴量の抽出と最初のモデルの構築
8.2.1 BoWの特徴量
8.2.2 ナイーブベイズアルゴリズムを使ってモデルを構築する
8.2.3 BoWの特徴量をTF-IDFアルゴリズムで正規化する
8.2.4 モデルのパラメータを最適化する