データサイエンティストのための特徴量エンジニアリング | マイナビブックス

データサイエンティストのための特徴量エンジニアリング

  • 著作者名:Soledad Galli
  • 翻訳者名:松田晃一
    • 書籍:3,938円
    • 電子版:3,938円
  • B5変:448ページ
  • ISBN:978-4-8399-82805
  • 発売日:2023年06月27日
  • シリーズ名:Compass Booksシリーズ
  • mixiチェック
  • このエントリーをはてなブックマークに追加

内容紹介

Pythonによる機械学習モデル構築のための特徴量 抽出・作成実践レシピ

機械学習においてはモデルを作成しデータを与えて学習させますが、その前に生データをモデルが理解できるような形式に変換する「特徴量エンジニアリング」と呼ばる重要なステップがあります。データサイエンティストはモデルの学習に使用する生データを選び特徴量に変換したり、データを組み合わせ新しい特徴量を作成します。うまく設計された特徴量は、機械学習モデルの精度を大幅に向上させ、学習にかかる時間を短縮することができます。

本書は特徴量エンジニアリングの実践的なガイドであり、機械学習のための特徴量を作成するための効果的なテクニックとベストプラクティスを学ぶことができます。Pythonを活用し、70以上の実践的な"レシピ"により特徴量の抽出を手軽に行います。pandas、scikit-learnに特徴量エンジニアリングライブラリであるFeature-engine、Category Encoders、Featuretools、tsfreshを利用し、新しい特徴量を変換・作成します。

欠損データの補完、カテゴリエンコーディング、変数変換、離散化、スケーリング、外れ値の取り扱いなど表形式データに対する特徴量エンジニアリングのほぼすべてのトピックをカバー。日付と時刻、テキスト、時系列、リレーショナルデータセットから特徴量を抽出する方法についても解説。テキストからの特徴量の抽出の付録として日本語モデルでの実例も取り上げます。

1章 欠損値を補完する
2章 カテゴリ変数をエンコーディングする
3章 数値変数を変換する
4章 変数を離散化する
5章 外れ値を扱う
6章 日付と時刻の変数から特徴量を抽出する
7章 特徴量をスケーリングする
8章 新しい特徴量を作成する
9章 Featuretoolsを用いてリレーショナルデータから特徴量を抽出する
10章 tsfreshを使って時系列データから特徴量を作成する
11章 テキスト変数から特徴量を抽出する
付録 日本語を扱う

Packt Publishing: Python Feature Engineering Cookbook, Second Edition の翻訳書。

電子版の購入は姉妹サイト「IT書籍ストア Manatee」がオススメ!
充実のラインナップに加え、割引セールも定期的に実施中!

商品を選択する

フォーマット 価格 備考
書籍 3,938
PDF 3,938 ※ご購入後、「マイページ」からファイルをダウンロードしてください。
※ご購入された電子書籍には、購入者情報、および暗号化したコードが埋め込まれております。
※購入者の個人的な利用目的以外での電子書籍の複製を禁じております。無断で複製・掲載および販売を行った場合、法律により罰せられる可能性もございますので、ご遠慮ください。

電子書籍フォーマットについて

  

備考

Soledad Galli : 世界的な学術機関や有名な企業で10年以上の経験を持つデータサイエンティスト、インストラクター、ソフトウェア開発者。保険金請求や信用リスクの評価、詐欺の防止を目的とした機械学習モデルを開発し実運用に成功している。複数のオンラインコースで機械学習を教えており、オープンソースのPythonライブラリFeature-engineを開発・保守している。2018年にData Science Leaders Awardを受賞、2019年にデータサイエンスと分析におけるLinkedIn Voices (LinkedInインフルエンサー) の1人に認定されている。

松田晃一 : 博士(工学、東京大学)。石川県羽咋市生まれ。『宇宙船ビーグル号の冒険』を読み、絵描きではなく、コンピュータの道へ。海(海水浴)と温泉を好む。著書に『Python ライブラリの使い方~ GUI から機械学習プログラミングまで』、『p5.js プログラミングガイド改訂版』(カットシステム)、『学生のためのPython』(東京電機大学出版局)、『WebGL Programming Guide』(Addison-Welsley Professional)など、訳書に『APIデザイン・パターン』、『プログラミングのための数学』(マイナビ出版)、『生成 Deep Learning』、『詳解OpenCV3』(オライリー・ジャパン)、『デザインのためのデザイン』(ピアソン桐原)などがある。

お詫びと訂正

書籍に記載したUCI Machine Learning Repository関連サイトのURLが変わっております。以下にデータセットのダウンロード方法をまとめました。(該当ページ:p.17、55、175、319、367)
book.mynavi.jp/supportsite/detail/9784839982805.html#uci

関連ページ

目次

1章 欠損値を補完する
2章 カテゴリ変数をエンコーディングする
3章 数値変数を変換する
4章 変数を離散化する
5章 外れ値を扱う
6章 日付と時刻の変数から特徴量を抽出する
7章 特徴量をスケーリングする
8章 新しい特徴量を作成する
9章  Featuretoolsを用いてリレーショナルデータから特徴量を抽出する
10章  tsfreshを使って時系列データから特徴量を作成する
11章 テキスト変数から特徴量を抽出する
付録 日本語を扱う

最近チェックした商品

Tポイント利用手続き

         Tポイント利用手続きに関する同意事項

                                株式会社マイナビ出版

株式会社マイナビ出版が提供するマイナビBOOKSにおいてTポイントご利用続きをされる方は、以下に掲げるお客様の個人情報の取り扱いについてご確認の上、ご同意下さい。

マイナビBOOKSにおいてTポイントサービスをご利用いただいた場合に、当社から、次に掲げる<提供情報>を、<提供目的>のためにCCCMKホールディングス株式会社(以下、「MKHD」といいます)へ提供します。

  <提供目的>:MKHDの定める個人情報保護方針及びマイナビBOOKSにおけるT会員規約第4条に定める利用目的で利用するためTポイントサービスを利用するため
  <提供情報>:
   1)お客様が【マイナビBOOKS】の正当な利用者であるという情報
   2)ポイント数・利用日
   3)その他、Tポイントサービスを利用するにあたり必要な情報

  <提供方法>: 電磁的記録媒体の送付またはデータ通信による。ただし、提供するデータについては暗号化を施すものとする。

なお、MKHDに提供された、以下の情報の利用については、MKHDの定める個人情報保護方針及びT会員規約 に沿って取り扱われます。
上記の情報提供の停止をご希望される場合には、【マイナビBOOKS】におけるTポイント利用手続きの解除を実施していただく必要があります。
Tポイント利用手続きの解除、およびTポイントサービスにおける個人情報に関するお問い合わせ先は、以下のとおりです。
お客様お問い合わせ先:Tサイト(https://tsite.jp/contact/index.pl )

 なお、Tポイント利用手続きの解除が完了しますと、マイナビBOOKSにおけるTポイントサービスをご利用いただけなくなりますので、予めご了承ください。

Tポイント利用手続きを行いますか?