つくりながら学ぶ!深層強化学習 | マイナビブックス

つくりながら学ぶ!深層強化学習 PyTorchによる実践プログラミング

  • mixiチェック
  • このエントリーをはてなブックマークに追加

内容紹介

Pythonで実装しながら学ぶ 強化学習・深層強化学習(DQN)

強化学習、さらにディープラーニングを組み合わせた深層強化学習DQN(Deep Q-Network)という用語を目にする機会が増えています。本書は関連の概念を分かりやすく解説しつつ、Python+PyTorchで「倒立振子課題」「迷路を解くプログラム」「ブロック崩しの攻略」を実装していきます。

第1章「強化学習の概要」では機械学習とその3分類(教師あり学習、教師なし学習、強化学習)について紹介します。

第2章「迷路課題に強化学習を実装しよう」では、簡単な強化学習(方策勾配法、Sarsa、Q学習)のコードをひとつずつ実装しながら、強化学習のアルゴリズムと実装方法を理解します。迷路を最短ルートでゴールするよう強化学習させます。

第3章「倒立振子課題に強化学習を実装しよう」では、2章で学んだ強化学習の基本をより複雑な課題への適用します。倒立振子とは、“ほうきを手のひらの上に立てる”遊びと同じ内容でその制御ルールを強化学習させます。Anacondaを用いたセットアップ方法も解説します。

第4章「Pytorchでディープラーニングを実装しよう」では、ディープラーニングの内容を理解し、PyTorchで実装します。ニューラルネットワークとディープラーニング発展の歴史、学習フェイズと推論フェイズについて解説。最後に手書き数字の画像を分類するMNIST課題を実装解説します。

第5章「深層強化学習DQNを実装しよう」では、強化学習にディープラーニングを組み合わせた“深層強化学習”を理解し、DQNを実装できるようにします。第3章の倒立振子課題に対してDQNを実装します。

第6章「深層強化学習の発展版を実装しよう」では、新しい深層強化学習の手法、Double-DQN、Dueling Network、Prioritized Experience Replay、そしてA3C、A2Cを理解し、実装できるようにします。

第7章「AWSのGPU環境でブロック崩しを実装しよう」では、ブロック崩しゲームを対象に深層強化学習のA2Cを実装します。実行環境としてAmazonのクラウドサービスAWSのGPU環境を使用する方法も解説します。

深層強化学習はまだまだ解決すべき課題の多い分野です。本書が深層強化学習に興味を持つ皆様の一助となれば幸いです。

電子版の購入は姉妹サイト「IT書籍ストア Manatee」がオススメ!
充実のラインナップに加え、割引セールも定期的に実施中!

商品を選択する

フォーマット 価格 備考
書籍 3,608
PDF 3,608 ※ご購入後、「マイページ」からファイルをダウンロードしてください。
※ご購入された電子書籍には、購入者情報、および暗号化したコードが埋め込まれております。
※購入者の個人的な利用目的以外での電子書籍の複製を禁じております。無断で複製・掲載および販売を行った場合、法律により罰せられる可能性もございますので、ご遠慮ください。

電子書籍フォーマットについて

  

備考

株式会社電通国際情報サービス 技術本部開発技術部に所属。ディープラーニングをはじめとした機械学習関連技術の研究開発・技術支援、ならびにワークスタイルイノベーション室のHRデータ解析を業務とする。明石工業高等専門学校、東京大学工学部を経て、東京大学大学院 神保・小谷研究室にて脳機能計測および計算論的神経科学の研究に従事し、2016年博士号(科学)を取得。東京大学特任研究員を経て、2017年4月より現職。
Qiita:qiita.com/sugulu

関連ページ

目次

各章の概要

第1章 強化学習の概要
- 1.1 機械学習の分類(教師あり学習、教師なし学習、強化学習)
- 1.2 強化学習・深層強化学習の歴史
- 1.3 深層強化学習の応用事例

第2章 迷路課題に強化学習を実装しよう
- 2.1 Try Jupyterの使い方
- 2.2 迷路とエージェントを実装
- 2.3 方策反復法の実装
- 2.4 価値反復法の専門用語を整理
- 2.5 Sarsa法の実装
- 2.6 Q学習の実装

第3章 倒立振子課題に強化学習を実装しよう
- 3.1 ローカルPCに強化学習の実装・実行環境を整える方法
- 3.2 倒立振子課題「CartPole」の解説
- 3.3 多変数・連続値で示される状態の表形式表現
- 3.4 Q学習の実装

第4章 PyTorchでディープラーニングを実装しよう
- 4.1 ニューラルネットワークとディープラーニングの歴史
- 4.2 ディープラーニングの計算手法を解説
- 4.3 PyTorchで手書き数字画像の分類課題MNISTを実装

第5章 深層強化学習DQNを実装しよう
- 5.1 深層強化学習DQN(Deep Q-Network)の解説
- 5.2 DQNの実装に重要な4つの工夫
- 5.3 DQNの実装(前半)
- 5.4 DQNの実装(後半)

第6章 深層強化学習の発展版を実装しよう
- 6.1 深層強化学習のアルゴリズムマップ
- 6.2 DDQN(Double-DQN)の実装
- 6.3 Dueling Networkの実装
- 6.4 Prioritized Experience Replayの実装
- 6.5 A2Cの実装

第7章 AWSのGPU環境でブロック崩しを実装しよう
- 7.1 ブロック崩しゲーム「Breakout」の解説
- 7.2 AWSでGPUを使用したディープラーニング実行環境を整える方法
- 7.3 Breakoutの学習に重要な4つの工夫
- 7.4 A2Cの実装(前半)
- 7.5 A2Cの実装(後半)

あとがき
索引
謝辞

最近チェックした商品

Tポイント利用手続き

         Tポイント利用手続きに関する同意事項

                                株式会社マイナビ出版

株式会社マイナビ出版が提供するマイナビBOOKSにおいてTポイントご利用続きをされる方は、以下に掲げるお客様の個人情報の取り扱いについてご確認の上、ご同意下さい。

マイナビBOOKSにおいてTポイントサービスをご利用いただいた場合に、当社から、次に掲げる<提供情報>を、<提供目的>のためにCCCMKホールディングス株式会社(以下、「MKHD」といいます)へ提供します。

  <提供目的>:MKHDの定める個人情報保護方針及びマイナビBOOKSにおけるT会員規約第4条に定める利用目的で利用するためTポイントサービスを利用するため
  <提供情報>:
   1)お客様が【マイナビBOOKS】の正当な利用者であるという情報
   2)ポイント数・利用日
   3)その他、Tポイントサービスを利用するにあたり必要な情報

  <提供方法>: 電磁的記録媒体の送付またはデータ通信による。ただし、提供するデータについては暗号化を施すものとする。

なお、MKHDに提供された、以下の情報の利用については、MKHDの定める個人情報保護方針及びT会員規約 に沿って取り扱われます。
上記の情報提供の停止をご希望される場合には、【マイナビBOOKS】におけるTポイント利用手続きの解除を実施していただく必要があります。
Tポイント利用手続きの解除、およびTポイントサービスにおける個人情報に関するお問い合わせ先は、以下のとおりです。
お客様お問い合わせ先:Tサイト(https://tsite.jp/contact/index.pl )

 なお、Tポイント利用手続きの解除が完了しますと、マイナビBOOKSにおけるTポイントサービスをご利用いただけなくなりますので、予めご了承ください。

Tポイント利用手続きを行いますか?