pandasライブラリ活用入門[第2版] データクリーニング/前処理など一連の分析プロセスをマスター!
インプレス
- Daniel Y. Chen(著者)、 吉川 邦夫(翻訳)、 福島 真太朗(監訳)
データ分析の基本技術を体系的に網羅!
<データサイエンス/データ分析の基本技術を体系的に網羅!>
<pandasの威力を実感! 効率的なデータ操作と可視化を実践できる>
データ分析や機械学習を利用する現場では、データを取り込み、変換/整備する必要があります。
そうしたデータの取り込みや前処理から始め、データ解析をスムーズに進めるための
Pythonライブラリとして、pandasが用意されています。
本書では、pandasなどを使ったデータ分析全体の基本手法を体系的・網羅的にカバー。
巻末の付録では、Python環境のインストールや文法などPythonの基本事項も確認できます。
初中級レベルの方がコードを試しながら理解を深めたり、おぼろげな知識について
確認したりすることで、基礎技術の定着やスキルアップが図れる一冊になっています。
「データクリーニング/前処理に慣れてから、モデリングを解説!
解釈しやすい形にデータセットを変更できる」
※本書は『Pandas for Everyone, 2nd Edition』の翻訳書です。
■本書の「序文」から抜粋
pandasを使うと、Pythonによるデータ分析が理解しやすくなり、
組織的で保守が可能なデータセットを作ることができ、
しかも(最も重要なことですが)整然としたデータセットが得られます。
発売日:2023-09-14
ページ数:522ページ
目次
表紙
口絵
本扉
サンプル/正誤表など
序文―第2版に寄せて
初版の序文
はじめに
本書の構成
本書の読み方/開発環境の準備
謝辞/初版の謝辞
著者について
第2版での変更点
目次
第1部 基本的な使い方
第1章 DataFrameの基礎/1.1 はじめに
1.2 最初のデータセットをロードする
1.3 列、行、セルを見る
1.4 グループ分けと集約の計算
1.5 基本的なプロット
1.6 まとめ
第2章 pandasのデータ構造
2.1 データを自作する
2.2 Seriesについて
2.3 DataFrameについて
2.4 SeriesとDataFrameの書き換え
2.5 データのエクスポートとインポート
2.6 まとめ
第3章 プロッティングによるグラフ描画
3.1 データを可視化する理由/3.2 matplotlibの基本
3.3 matplotlibによる統計的グラフィックス
3.4 seaborn
第4章 「整然データ」を作る
4.1 列に(変数ではなく)値が入っているとき
4.2 複数の変数を含む列があるとき
4.3 行と列の両方に変数があるとき
4.4 まとめ
第5章 関数を適用(apply)する
5.1 関数の初歩
5.2 applyの基本
5.3 関数のベクトル化
5.4 ラムダ関数
5.5 まとめ
第2部 データ操作
第6章 データの組み立て/6.1 データセットを組み合わせる
6.2 連結
6.3 データが観測単位ごとの表に分かれている場合
6.4 複数のデータセットをマージする
6.5 まとめ
第7章 データの正規化/7.1 1個の表に観察単位が複数あるとき(正規化)
7.2 まとめ
第8章 groupby演算による分割-適用-結合
8.1 集約
8.2 変換(transform)
8.3 フィルタリング
8.4 DataFrameGroupByオブジェクト
8.5 マルチインデックスの使い方
8.6 まとめ
第3部 データの型
第9章 欠損データ/9.1 NaNとは何か
9.2 欠損値はどこから来るのか
9.3 欠損データの扱い
9.4 pandas組み込みのNA(欠損値)
9.5 まとめ
第10章 データ型/10.1 データ型
10.2 型変換
10.3 カテゴリ型データ
第11章 文字列とテキストデータ
11.1 文字列
11.2 文字列メソッド
11.3 その他の文字列メソッド
11.4 文字列の書式整形(f文字列)
11.5 正規表現(RegEx)
11.6 regexライブラリ/11.7 まとめ
第12章 日付と時刻/12.1 Pythonのdatetimeオブジェクト
12.2 datetimeへの変換
12.3 日付を含むデータをロードする
12.4 日付の各部を抽出する
12.5 日付の計算とtimedelta
12.6 datetimeのメソッド
12.7 株価データを取得する
12.8 日付によるデータの絞り込み
12.9 日付の範囲
12.11 リサンプリング
12.12 時間帯(タイムゾーン)
12.13 日付と時刻の扱いが優れたarrowライブラリ
12.14 まとめ
第4部 データモデリング
第13章 線形回帰モデル/13.1 単純な線形回帰
13.2 重回帰
13.3 カテゴリ変数を使うモデル
13.4 sklearnのone-hotエンコーディングと、トランスフォーマーのパイプライン
13.5 まとめ
第14章 一般化線形モデル
14.1 ロジスティック回帰
14.2 ポアソン回帰
14.3 その他の一般化線形モデル
14.4 まとめ
第15章 生存分析
15.1 生存データ
15.2 カプランマイヤー曲線
15.3 Coxの比例ハザードモデル
15.4 まとめ
第16章 モデルを評価する
16.2 複数のモデルを比較する
16.3 k分割交差検証
16.4 まとめ
第17章 正則化で過学習に対応する/17.1 正則化とは
17.2 LASSO回帰
17.3 リッジ回帰
17.4 Elastic Net
17.5 交差検証
17.6 まとめ
第18章 クラスタリング/18.1 k平均法
18.2 階層的クラスタリング
18.3 まとめ
第5部 次のステップへ
第19章 pandas周辺の強力な機能/19.1 Pythonの科学計算スタック
19.2 コードの性能
19.6 Polars/19.7 pyjanitor/19.8 pandera/19.9 機械学習
19.10 出版/19.11 ダッシュボード/19.12 まとめ
第20章 仲間と学び続けよう/20.1 地元でのミートアップ
20.2 カンファレンス
20.3 The Carpentries/20.4 ポッドキャスト/20.5 その他のリソース
20.6 まとめ
第6部 付録
付録A コンセプトマップ
付録B インストールと設定
付録C コマンドライン
付録D プロジェクトのテンプレート
付録E Pythonの使い方
付録F ワーキングディレクトリ
付録G 環境
付録H パッケージのインストール
付録I ライブラリのインポート
付録J コーディングスタイル
付録K コンテナ(リスト、タプル、辞書)
付録L 値のスライスと範囲
付録M ループ
付録N リストの内包表記
付録O 関数
付録P 範囲とジェネレータ
付録Q 複数代入
付録R NumPyのndarray
付録S クラス
付録T SettingWithCopyWarning
付録U メソッドチェーン
付録V コードの実行時間を計測する
付録W 文字列の書式整形(フォーマッティング)
付録X 条件文(if-elif-else)
付録Y New York ACSによるロジスティック回帰の例
付録Z 結果をR言語で再現する
主な参考文献
索引
翻訳者/監訳者プロフィール
奥付
著者プロフィール
-
Daniel Y. Chen(著者)
■著者
Daniel Y. Chen
バージニア工科大学で遺伝学・バイオインフォマティクス・計算生物学(GBCB)の博士課程を修了。
学位論文は医学・生物医学におけるデータサイエンス教育。
また、コロンビア大学メイルマン公衆衛生大学院で疫学の公衆衛生学修士課程を修了、
社会的ネットワークにおいて行動に対する態度がどのように拡散し広がるかを研究した。
現在、ブリティッシュ・コロンビア大学の博士研究員および教育フェローとして、
またPBCのPosit(旧RStudio, PBC)のデータサイエンス教育者として勤務。
The Carpentriesでは、インストラクター、インストラクタートレーナー、
主席コミュニティメンテナーとして関わっている。 -
吉川 邦夫(翻訳)
■翻訳者
吉川 邦夫
1957年生まれ。ICU(国際基督教大学)卒。
おもに制御系のプログラマとして、ソフトウェア開発に従事した後、
翻訳家として独立。英文雑誌記事の和訳なども手掛ける。
訳書は、Scott Meyersらによる「Effective」ソフトウェア開発シリーズ(アスキー、翔泳社)、
『Rustプログラミング完全ガイド 他言語との比較で違いが分かる!』(インプレス)、
本書の第1版である『Pythonデータ分析/機械学習のための基本コーディング!
pandasライブラリ活用入門』(同)など多数。 -
福島 真太朗(監訳)
■監訳者
福島 真太朗
現在、企業で機械学習、データマイニングの研究開発、技術開発の業務に従事。東京大学理学部物理学科卒業。
東京大学大学院新領域創成科学研究科 複雑理工学専攻修士課程修了。東京大学大学院情報理工学系研究科
数理情報学専攻 博士課程修了。博士(情報理工学)。専攻は機械学習・データマイニング・非線形力学系。
Copyright © Mynavi Publishing Corporation