『データサイエンティストのための特徴量エンジニアリング』サポートサイト
このページは『データサイエンティストのための特徴量エンジニアリング』(ISBN978-4-8399-8280-5)のサポートページです。
公開日:2023年6月8日
更新日:2023年7月6日
発行:マイナビ出版
データセットのダウンロードについて(UCIサイトの変更)
正誤情報
商品紹介ページへ戻る
関連サイト
データセットのダウンロードについて(UCIサイトの変更)
書籍に記載したUCI Machine Learning Repository関連サイトのURLが変わってしまっています。以下にデータセットのダウンロード方法をまとめます。(2023/7確認)
p. 17とp.55
(1) https://archive.ics.uci.edu/dataset/27/credit+approval にアクセス
(2) 右上の[DOWNLOAD]ボタンをクリック
(3) Credit+approval.zipがダウンロードされる(ファイル容量 14 kB)
(4) ZIPを展開する
(5) 展開されたファイル内の crx.dataを使用してください
p. 175
(1) https://archive.ics.uci.edu/dataset/164/bag+of+words にアクセス
(2) 右上の[DOWNLOAD]ボタンをクリック
(3) bag+words.zipがダウンロードされる(ファイル容量 2.07 GB)
(4) ZIPを展開する
(5) 展開されたフォルダ内のGZIPファイルdocword.enron.txt.gzを展開してください
(6) docword.enron.txtと展開されたフォルダ内のvocab.enron.txtを使用してください
p.319
(1) https://archive.ics.uci.edu/dataset/502/online+retail+ii にアクセス
(2) 右上の[DOWNLOAD]ボタンをクリック
(3) online+retail+ii.zipがダウンロードされる(ファイル容量 44.5 MB)
(4) ZIPを展開する
(5) 展開されたフォルダ内のonline_retail_II.xlsxを使用してください
p. 367
(1) https://archive.ics.uci.edu/dataset/357/occupancy+detection にアクセス
(2) 右上の[DOWNLOAD]ボタンをクリック
(3) occupancy+detectionがダウンロードされる(ファイル容量 328 KB)
(4) ZIPを展開する
(5) 展開されたフォルダ内のdatatraining.txtを使用してください
正誤情報
本書の正誤について更新していきます。
- 18ページ:7. 変数名をDataFrame に追加
- 誤) data = data.replace("?", np.nan)
- 正) data.columns = varnames