データサイエンティストのための特徴量エンジニアリング
- 著作者名:Soledad Galli
- 翻訳者名:松田晃一
-
- 書籍:3,938円
- 電子版:3,938円
- B5変:448ページ
- ISBN:978-4-8399-82805
- 発売日:2023年06月27日
- シリーズ名:Compass Booksシリーズ
内容紹介
Pythonによる機械学習モデル構築のための特徴量 抽出・作成実践レシピ
機械学習においてはモデルを作成しデータを与えて学習させますが、その前に生データをモデルが理解できるような形式に変換する「特徴量エンジニアリング」と呼ばる重要なステップがあります。データサイエンティストはモデルの学習に使用する生データを選び特徴量に変換したり、データを組み合わせ新しい特徴量を作成します。うまく設計された特徴量は、機械学習モデルの精度を大幅に向上させ、学習にかかる時間を短縮することができます。
本書は特徴量エンジニアリングの実践的なガイドであり、機械学習のための特徴量を作成するための効果的なテクニックとベストプラクティスを学ぶことができます。Pythonを活用し、70以上の実践的な"レシピ"により特徴量の抽出を手軽に行います。pandas、scikit-learnに特徴量エンジニアリングライブラリであるFeature-engine、Category Encoders、Featuretools、tsfreshを利用し、新しい特徴量を変換・作成します。
欠損データの補完、カテゴリエンコーディング、変数変換、離散化、スケーリング、外れ値の取り扱いなど表形式データに対する特徴量エンジニアリングのほぼすべてのトピックをカバー。日付と時刻、テキスト、時系列、リレーショナルデータセットから特徴量を抽出する方法についても解説。テキストからの特徴量の抽出の付録として日本語モデルでの実例も取り上げます。
1章 欠損値を補完する
2章 カテゴリ変数をエンコーディングする
3章 数値変数を変換する
4章 変数を離散化する
5章 外れ値を扱う
6章 日付と時刻の変数から特徴量を抽出する
7章 特徴量をスケーリングする
8章 新しい特徴量を作成する
9章 Featuretoolsを用いてリレーショナルデータから特徴量を抽出する
10章 tsfreshを使って時系列データから特徴量を作成する
11章 テキスト変数から特徴量を抽出する
付録 日本語を扱う
Packt Publishing: Python Feature Engineering Cookbook, Second Edition の翻訳書。
充実のラインナップに加え、割引セールも定期的に実施中!
商品を選択する
フォーマット | 価格 | 備考 | |
---|---|---|---|
書籍 | 3,938円 | ||
3,938円 | ※ご購入後、「マイページ」からファイルをダウンロードしてください。 ※ご購入された電子書籍には、購入者情報、および暗号化したコードが埋め込まれております。 ※購入者の個人的な利用目的以外での電子書籍の複製を禁じております。無断で複製・掲載および販売を行った場合、法律により罰せられる可能性もございますので、ご遠慮ください。 |
備考
Soledad Galli : 世界的な学術機関や有名な企業で10年以上の経験を持つデータサイエンティスト、インストラクター、ソフトウェア開発者。保険金請求や信用リスクの評価、詐欺の防止を目的とした機械学習モデルを開発し実運用に成功している。複数のオンラインコースで機械学習を教えており、オープンソースのPythonライブラリFeature-engineを開発・保守している。2018年にData Science Leaders Awardを受賞、2019年にデータサイエンスと分析におけるLinkedIn Voices (LinkedInインフルエンサー) の1人に認定されている。
松田晃一 : 博士(工学、東京大学)。石川県羽咋市生まれ。『宇宙船ビーグル号の冒険』を読み、絵描きではなく、コンピュータの道へ。海(海水浴)と温泉を好む。著書に『Python ライブラリの使い方~ GUI から機械学習プログラミングまで』、『p5.js プログラミングガイド改訂版』(カットシステム)、『学生のためのPython』(東京電機大学出版局)、『WebGL Programming Guide』(Addison-Welsley Professional)など、訳書に『APIデザイン・パターン』、『プログラミングのための数学』(マイナビ出版)、『生成 Deep Learning』、『詳解OpenCV3』(オライリー・ジャパン)、『デザインのためのデザイン』(ピアソン桐原)などがある。
お詫びと訂正
書籍に記載したUCI Machine Learning Repository関連サイトのURLが変わっております。以下にデータセットのダウンロード方法をまとめました。(該当ページ:p.17、55、175、319、367)
book.mynavi.jp/supportsite/detail/9784839982805.html#uci
関連ページ
- サポートサイト・正誤情報 https://book.mynavi.jp/supportsite/detail/9784839982805.html
- 本書のサンプルコード(GitHub) https://github.com/PacktPublishing/Python-Feature-Engineering-Cookbook-Second-Edition
- データセットのダウンロードについて(UCIサイトの変更) https://book.mynavi.jp/supportsite/detail/9784839982805.html#uci
目次
1章 欠損値を補完する2章 カテゴリ変数をエンコーディングする
3章 数値変数を変換する
4章 変数を離散化する
5章 外れ値を扱う
6章 日付と時刻の変数から特徴量を抽出する
7章 特徴量をスケーリングする
8章 新しい特徴量を作成する
9章 Featuretoolsを用いてリレーショナルデータから特徴量を抽出する
10章 tsfreshを使って時系列データから特徴量を作成する
11章 テキスト変数から特徴量を抽出する
付録 日本語を扱う