実践 Webスクレイピング&クローリング オープンデータ時代の収集・整形テクニック

  • 著作者名:nezuq
  • 監修者名:東京スクラッパー(協力)
    • 書籍:3,434円
    • 電子版:3,434円
  • A5判:208ページ
  • ISBN:978-4-8399-5647-9
  • 発売日:2015年08月28日
  • 備考:初中級
  • mixiチェック
  • このエントリーをはてなブックマークに追加

内容紹介

欲しいデータを手に入れる。

欲しいデータを手に入れる。―インターネットを1つの巨大なデータベースとして使おう。

本書の目的は、インターネットを「1つの巨大なデータベース」として扱い、「Webデータ」として活用できるようになることです。
Web上のデータを使用する上での基礎知識を解説し、インターネットを1つの巨大なデータベースとして扱うための技術を紹介します。Webスクレイピングはその代表的な技術ですが、より簡単な方法もありますのでそちらも紹介します。データの基礎知識やプログラミング技術について、代表的なライセンスや著作権を交えながら語り尽くします。

「Part 1: Webスクレイピングを試す」でLibraHack 事件の概要と論点、Webデータ活用の注意点を紹介。
Pythonを使ったWebスクレイピングを実際に試します。

「Part 2:データの基礎知識を理解する」で、データの定義や標準的なデータ形式、保存方法を紹介。
データの入手・整形にはプログラミング技術が少なからず必要ですので、Pythonの書き方も簡単に記載します。

「Part 3:Webデータを入手する」で、Webデータの種類別に入手方法や注意事項を紹介。
オープンデータ・LOD・WebAPI・Webスクレイピング代行サービス・Webスクレイピングの5つのデータの技術的と
法律的な事に触れていきます。

「Part 4:Webデータを整形する」で、入手したWebデータを整形する方法を紹介。
文字コード変換、データ形式を整え、欠測値やはずれ値に対応します

「Part 5:Webデータの入手・整形を実践する」で、Webデータ収集の実例を紹介。
気温・株価・評価(商品評価)の3つの事例を紹介しています。

続きを読む

商品を選択する

フォーマット 価格 備考
書籍 3,434
PDF 3,434 ※ご購入後、「マイページ」からファイルをダウンロードしてください。
※ご購入された電子書籍には、購入者情報、および暗号化したコードが埋め込まれております。
※購入者の個人的な利用目的以外での電子書籍の複製を禁じております。無断で複製・掲載および販売を行った場合、法律により罰せられる可能性もございますので、ご遠慮ください。

電子書籍フォーマットについて

  

備考

nezuq(ねずきゅー)
システムエンジニア。Webデータ活用の勉強会コミュニティ「東京スクラッパー」の開催者。LODチャレンジ Japan 2013 ビジュアライゼーション部門最優秀賞を受賞。

東京スクラッパー(とうきょうすくらっぱー)
お悩み駆動型ITコミュニティー「東京スクラッパー」は、情報を収集・整理・組み合わせ、新しい価値を提供する人のための互助会です。

関連ページ

目次

Part 1: Webスクレイピングを試す
1.1 Webスクレイピングをはじめよう
1.1.1 LibraHack事件とは?
1.1.2 LibraHack事件の論点は?
1.1.3 Webデータを利用する時の注意は?
1.1.4 Webスクレイピングとは?
1.2 Pythonをインストールする
1.2.1 [方法1] PythonをAnaconda経由でインストールするには?
1.2.2 [方法2] Pythonを直接インストールするには?
1.3 実際にWebスクレイピングを試す
1.3.1 Pythonファイルを実行するには?
1.3.2 jsonファイルの中身を確認するには?

Part 2: データの基礎知識
2.1 データの基礎
2.1.1 データとは?
2.1.2 データ分析とは?
2.2 データ形式
2.2.1 CSVとは?
2.2.2 XMLとは?
2.2.3 JSONとは?
2.3 データベース入門
2.3.1 データベースとは?
2.3.2 RDBとは?
2.3.3 SQLiteとは?
2.3.4 SQLiteをインストールするには?
2.3.5 SQLiteにCSVファイルのデータを入れる方法は?
2.3.6 SQLとは?
2.3.7 NoSQLとは?
2.4 プログラミング入門(Python)
2.4.1 Pythonとは?
2.4.2 Pythonで書いたプログラムを実行するには?
2.5 Pythonの書き方は?
2.5.1 変数・関数・コメントとは?
2.5.2 変数とは?
2.5.3 関数とは?
2.5.4 コメントとは?
2.5.5 条件分岐・繰り返しとは?
2.5.6 入力・編集・出力とは?
2.5.7 よりPythonを学ぶには?

Part 3: Webデータの入手方法
3.1 レベル1:オープンデータ
3.1.1 オープンデータとは?
3.1.2 オープンデータを探すには?
3.1.3 オープンデータの利用規約は?
3.2 レベル2:LOD
3.2.1 LODとは?
3.2.2 LODの特徴は?
3.2.3 LODを探すには?
3.2.4 LODをダウンロードするには?
3.2.5 SPARQLとは
3.2.6 LODの利用規約は?
3.3 レベル3:WebAPI
3.3.1 WebAPIとは?
3.3.2 WebAPIを探すには?
3.3.3 WebAPIのデータをダウンロードするには?
3.3.4 WebAPIの利用規約は?
3.4 レベル4:Webスクレイピング代行サービス
3.4.1 そもそもWebページとは?
3.4.2 kimonoとは?
3.4.3 kimonoでデータをダウンロードするには?
3.4.4 kimonoの利用規約は?
3.5 レベル5:Webスクレイピング
3.5.1 Webスクレイピングは合法なのか?
3.5.2 Webスクレイピングの注意事項は?
3.5.3 BeautifulSoupでWebデータを入手するには?
3.5.4 Seleniumとは?
3.5.5 よりWebスクレイピング技術を身につけるためには?
3.5.6 Webスクレイピングで得たデータの利用規約は?

Part 4: Webデータの整形法
4.1 レベル1:nkf(Network Kanji Filter)
4.1.1 nkfをインストールするには?
4.2 レベル2:Excel+テキストエディター
4.2.1 Excelとは?
4.2.2 ワイルドカードとは?
4.2.3 テキストエディターとは?
4.2.4 正規表現とは?
4.3 レベル3:AWK・Mコマンド
4.3.1 AWKとは?
4.3.2 Mコマンドとは?
4.4 レベル4:Pandas(Python)
4.4.1 Pandasとは?
4.4.2 PandasのAPIリファレンス
4.5 レベル5:MeCab・CaboCha
4.5.1 MeCabとは?
4.5.2 MeCabのインストール方法は?
4.5.3 CaboChaとは?
4.5.4 CaboChaのインストール方法は?

Part 5: Webデータの入手・整形を実践する
5.1 例1:気温データ - 売上を予測するには?
5.1.1 データを入手する
5.1.2 データの利用規約を確認する
5.1.3 データの構造を理解する
5.1.4 データを整形する
5.1.5 結果を確認する
5.2 例2:株価データ - 銘柄の動向や関係性を知るには?
5.2.1 データを入手する
5.2.2 データの利用規約を確認する
5.2.3 データの構造を理解する。
5.2.4 データを整形する
5.2.5 結果を確認する
5.3 例3:評価データ - 商品の評判を調べるには?
5.3.1 データを入手する
5.3.2 データの利用規約を確認する
5.3.3 データの構造を理解する
5.3.4 データを整形する
5.3.5 結果を確認する
 

この商品を買った人はこんな商品も買っています


最近チェックした商品

Tポイント利用手続き

         Tポイント利用手続きに関する同意事項

                                株式会社マイナビ出版

株式会社マイナビ出版が提供するマイナビBOOKSにおいてTポイントご利用続きをされる方は、以下に掲げるお客様の個人情報の取り扱いについてご確認の上、ご同意下さい。

マイナビBOOKSにおいてTポイントサービスをご利用いただいた場合に、当社から、次に掲げる<提供情報>を、<提供目的>のためにカルチュア・コンビニエンス・クラブ株式会社(以下「CCC」といいます)へ提供します。

  <提供目的>:CCCの定める個人情報保護方針及びマイナビBOOKSにおけるT会員規約第4条に定める利用目的で利用するためTポイントサービスを利用するため
  <提供情報>:
   1)お客様が【マイナビBOOKS】の正当な利用者であるという情報
   2)ポイント数・利用日
   3)その他、Tポイントサービスを利用するにあたり必要な情報

  <提供方法>: 電磁的記録媒体の送付またはデータ通信による。ただし、提供するデータについては暗号化を施すものとする。

なお、CCCに提供された、以下の情報の利用については、CCCの定める個人情報保護方針及びT会員規約 に沿って取り扱われます。
上記の情報提供の停止をご希望される場合には、【マイナビBOOKS】におけるTポイント利用手続きの解除を実施していただく必要があります。
Tポイント利用手続きの解除、およびTポイントサービスにおける個人情報に関するお問い合わせ先は、以下のとおりです。
お客様お問い合わせ先:Tサイト(http://qa.tsite.jp/faq/show/22612)

 なお、Tポイント利用手続きの解除が完了しますと、マイナビBOOKSにおけるTポイントサービスをご利用いただけなくなりますので、予めご了承ください。

Tポイント利用手続きを行いますか?