Pythonスクレイピングの基本と実践データサイエンティストのためのWebデータ収集術

インプレス

Seppe vanden Broucke（著者）、 Bart Baesens（著者）、株式会社トップスタジオ（翻訳）

スクレイピングを基本から包括的に解説！

◇スクレイピング・テクニックの基礎と実践を学べる。Webからデータを収集、適切なデータセットを作成しよう！―本書では、HTTP／HTML／CSSといった基本技術の仕組み、フォーム／ログイン／Cookie／JavaScriptへの対応、クローラーの開発、ベストプラクティスを解説。データサイエンス指向の15のサンプルも収録。Pythonの各種ライブラリを活用！［requests、Beautiful Soup、Selenium、records、matplotlib、pandas、scikit-learn … etc.］◇Webページから情報を取得するスクレイピングは、データサイエンスに必須の技術です。本書では、Pythonを使ったスクレイピングの基本と実践を解説。有用なツール、ベストプラクティス、実用サンプルについても説明。本当に興味深いプロジェクトは、情報という宝の山を探索することから始まります。本書を携えて探索の旅を進めていきましょう。◇本書は『Practical Web Scraping for Data Science: Best Practices and Examples with Python』の翻訳書です。◇Pythonプログラミングの基礎を理解していることを前提に解説しています。

発売日：2018-12-17

ページ数：316ページ

表紙
商標
口絵
著者紹介／テクニカルレビュアー紹介
はじめに
第1部 Webスクレイピングの基礎
第1章イントロダクション―スクレイピングの考え方、Pythonの準備
1.1 Webスクレイピングとは／1.1.1 なぜデータサイエンスでWebスクレイピングを使うのか
1.1.2 だれがWebスクレイピングの使うのか
1.2 準備／1.2.1 セットアップ
1.2.2 Python基礎の確認
第2章 HTTPでWebと対話してみよう―HTTPとrequestsライブラリの基本事項
2.1 Webによるネットワーク通信の仕組み
2.2 HTTP（HyperText Transfer Protocol）
2.3 PythonでHTTPを操作する：requestsライブラリ
2.4 クエリ文字列：パラメーター付きのURL
第3章 Webのスープをかき回そう―HTML＋CSSページからの情報収集の基本
3.1 HTML（HyperText Markup Language）
3.2 ブラウザーを開発用ツールとして使用する
3.3 CSS（Cascading Style Sheets）
3.4 Beautiful Soupライブラリ
3.5 Beautiful Soupの詳細
第2部高度なWebスクレイピング
第4章 POSTメソッドやクッキーなどへの対処法
4.1 フォームとPOSTリクエストの操作
4.2 HTTPリクエストメソッドのまとめ
4.3 ヘッダーの詳細
4.4 Cookieの処理
4.5 requestsのセッションを利用する
4.6 バイナリ、JSON、その他のコンテンツ形式
第5章 JavaScriptへの対処法
5.1 JavaScriptとは何か
5.2 JavaScriptのスクレイピング
5.3 Seleniumによるスクレイピング
5.4 Seleniumの高度な使用法
第6章スクレイピングからクローリングへ―Webクローラー開発のポイント
6.1 Webクローリングとは
6.2 PythonによるWebクローリング
6.3 結果をデータベースに保存する
第3部 Webスクレイピングの実践入門
第7章管理と法律に関する問題
7.1 データサイエンスのプロセス
7.2 Webスクレイピングが効果的な領域
7.3 法務に関する問題
第8章有用なツールとベストプラクティス
8.1 スクレイピングに役立つその他のツール／8.1.1 Pythonの代替ライブラリ／8.1.2 Scrapy
8.1.3 キャッシュ処理
8.1.4 キャッシュ処理プロキシサーバー／8.1.5 ほかのプログラミング言語でのスクレイピング
8.1.6 キャッシュ処理コマンドラインツール
8.1.7 グラフィカルなスクレイピングツール
8.2 ベストプラクティスとヒント
第9章データサイエンス指向の実践サンプル―ファッションデータ／ニュース記事／商品レビューなどの収集と分析
9.1 Hacker Newsのスクレイピング
9.2 Hacker News APIの利用
9.3 名言のスクレイピング
9.4 書籍の情報をスクレイピングする
9.5 GitHubのスター数をスクレイピングする
9.6 住宅ローン金利の情報をスクレイピングする
9.7 IMDbの評価をスクレイピングしてビジュアル化する
9.8 IATAの航空情報をスクレイピングする
9.9 Webフォーラムの対話をスクレイピングして解析する
9.10 ファッションのデータセットを収集してクラスタリングする
9.11 Amazonのレビューをスクレイピングしてセンチメント分析を行う
9.12 ニュース記事のスクレイピングと分析
9.13 Wikipediaをスクレイピングしてグラフ化と分析を行う
9.14 役員のグラフをスクレイピングしてビジュアル化する
9.15 ディープラーニングによってCAPTCHAを突破する
索引
翻訳者紹介＋STAFF LIST
奥付

著者プロフィール

Seppe vanden Broucke（著者）

◎著者プロフィール
Seppe vanden Broucke（セッペ・バンデン・ブルーク）
ベルギーのルーヴェン・カトリック大学助教授。データプロセスサイエンス専攻。研究分野は、ビジネスデータのマイニングと分析、機械学習、プロセス管理、プロセスマイニングなど。著書に『Principles of Database Management』（Cambridge University Press、2018/9）、『Beginning Java Programming』（Wrox、2015/3）がある。
Bart Baesens（著者）

◎著者プロフィール
Bart Baesens（バート・バエセン）
ベルギーのルーヴェン・カトリック大学教授、英国のサウサンプトン大学講師。ビッグデータとデータ分析を専攻。大規模データと分析、信用リスクモデリング、不正検出、マーケティング分析について幅広く研究している。著書に『Principles of Database Management』（Cambridge University Press、2018/9）、『Profit Driven Business Analytics』（Wiley、2017/10）などがある。
株式会社トップスタジオ（翻訳）

◎訳者プロフィール
株式会社トップスタジオ
1997年の会社設立以来20年以上にわたり、主にIT分野を中心に数多くの翻訳書籍を手掛ける。書籍/雑誌/マニュアル/パンフレットの企画・翻訳・執筆・編集・組版・装丁のほか、ソフトウェアやヘルプのローカライズなど、幅広いコンテンツの制作に携わっている。［トップスタジオWebサイト］www.topstudio.co.jp

オススメの連載

連載一覧へ

2012.01.17

天文おもしろINFORMATION

日本現役最古のプラネタリウムはどこにある？

絶賛！発売中！

書籍一覧へ

ＮＰＯで働く
- 工藤啓（著者）
経営・マーケティング

新卒、中途採用、そして60歳代のシニアまで、普通の会社員並みの給料を受け取りながら、「社会の課題を解決したい」という思いを実現できる働き方がある。それを可能にするＮＰＯマネジメントの方法、またＮＰＯ経営者としての生き方があることを本書は示している。"著者はニート、引きこもりの若者の就業を支援するＮＰＯ法人の代表。普通の会社員並みの給料を得ながら社会貢献をしたいという思いを実現できる生き方、働き方の選択肢を示す。
日産　驚異の会議
- 漆原次郎（著者）
ビジネス・経済読み物

自動車産業の苦戦から一気に抜け出してきた日産。エコカー競争でも電気自動車リーフに話題が集中している。この勢いの秘密は驚くべき会議手法にあった。会議好きも会議嫌いも感動する“すごい”会議！
天災と復興の日本史
- 外川淳（著者）
日本社会・日本政治

巨大地震や津波、噴火などが、どのように歴史を動かしたのか。また、先人達はいかにして復興を成し遂げてきたのか。新視点から日本史と日本人を分析し、現状の危機からの脱出法のヒントを示す。
凋落　木村剛と大島健伸
- 高橋篤史（著者）
日本社会・日本政治

ＳＦＣＧ（旧商工ファンド）の大島健伸と日本振興銀行の木村剛。彼らはどのように一時の成功者となり、転落していったのか。２人の人生をたどりながら、他人を犠牲にした個人主義の蔓延に警鐘を鳴らす。

7217件中 7061-7064件目先頭前へ 1761 1762 1763 1764 176517661767 1768 1769 1770 次へ最後

購入形態

Pythonスクレイピングの基本と実践 データサイエンティストのためのWebデータ収集術

スクレイピングを基本から包括的に解説！

目次

著者プロフィール

Pythonスクレイピングの基本と実践データサイエンティストのためのWebデータ収集術