つくりながら学ぶ!深層強化学習 PyTorchによる実践プログラミング

  • mixiチェック
  • このエントリーをはてなブックマークに追加

内容紹介

実装しながら強化学習・深層強化学習(DQN)を学ぶ!

強化学習、さらにディープラーニングを組み合わせた深層強化学習DQN(Deep Q-Network)という用語を目にする機会が増えています。本書は関連の概念を分かりやすく解説しつつ、PythonとPytorchで「迷路を解くプログラム」「倒立振子課題」「ブロック崩しの攻略」などを実装していきます。

第1章「強化学習の概要」では機械学習とその3分類(教師あり学習、教師なし学習、強化学習)について紹介します。

第2章「迷路課題に強化学習を実装しよう」では、簡単な強化学習(方策勾配法、Sarsa、Q学習)のコードをひとつずつ実装しながら、強化学習のアルゴリズムと実装方法を理解します。迷路を最短ルートでゴールするよう強化学習させます。

第3章「倒立振子課題に強化学習を実装しよう」では、2章で学んだ強化学習の基本をより複雑な課題への適用します。倒立振子とは、“ほうきを手のひらの上に立てる”遊びと同じ内容でその制御ルールを強化学習させます。Anacondaを用いたセットアップ方法も解説します。

第4章「Pytorchを用いてディープラーニングを実装しよう」では、ディープラーニングの内容を理解し、PyTorchで実装します。ニューラルネットワークとディープラーニング発展の歴史、学習フェイズと推論フェイズについて解説。最後に手書き数字の画像を分類するMNIST課題を実装解説します。

第5章「倒立振子課題に深層強化学習DQN(Deep Q-Network)を実装しよう」では、強化学習にディープラーニングを組み合わせた“深層強化学習”を理解し、DQNを実装できるようにします。第3章の倒立振子課題に対してDQNを実装します。

第6章「倒立振子課題に深層強化学習の発展版を実装しよう」では、新しい深層強化学習の手法、Double-DQN、Dueling Network、Prioritized Experience Replay、そしてA3C、A2Cを理解し、実装できるようにします。

第7章「AWSのGPU環境でブロック崩しを実装しよう」では、ブロック崩しゲームを対象に深層強化学習のA2Cを実装します。実行環境としてAmazonのクラウドサービスAWSのGPU環境を使用する方法も解説します。

商品を選択する

フォーマット 価格 備考
書籍 3,542

電子書籍フォーマットについて

  

備考

小川 雄太郎(おがわ・ゆうたろう)
株式会社電通国際情報サービス(ISID)技術本部開発技術部に所属。ディープラーニングをはじめとした機械学習関連技術の研究開発・技術支援、およびHR techに関するデータ解析を業務とする。明石高専、東京大学工学部を経て、東京大学大学院新領域創成科学研究科、神保・小谷研究室にて、脳機能計測および計算論的神経科学の研究に従事し、2016年博士号(科学)を取得。東京大学特任研究員を経て、2017年4月より現職。

目次

各章の概要

第1章 強化学習の概要
- 1.1 機械学習の分類(教師あり学習、教師なし学習、強化学習)
- 1.2 強化学習・深層強化学習の歴史
- 1.3 深層強化学習の応用事例

第2章 迷路課題に強化学習を実装しよう
- 2.1 Try Jupyterの使い方
- 2.2 迷路とエージェントを実装
- 2.3 方策反復法の実装
- 2.4 価値反復法の専門用語を整理
- 2.5 Sarsa法の実装
- 2.6 Q学習の実装

第3章 倒立振子課題に強化学習を実装しよう
- 3.1 ローカルPCに強化学習の実装・実行環境を整える方法
- 3.2 倒立振子課題「CartPole」の解説
- 3.3 多変数・連続値で示される状態の表形式表現
- 3.4 Q学習の実装

第4章 PyTorchを用いてディープラーニングを実装しよう
- 4.1 ニューラルネットワークとディープラーニングの歴史
- 4.2 ディープラーニングの計算手法を解説
- 4.3 Pytorchで手書き数字画像の分類課題MNISTを実装

第5章 倒立振子課題に深層強化学習DQN(Deep Q-Network)を実装しよう
- 5.1 深層強化学習「DQN」の解説
- 5.2 DQNの実装に重要な4つの工夫
- 5.3 DQNの実装(前半)
- 5.4 DQNの実装(後半)

第6章 倒立振子課題に深層強化学習の発展版を実装しよう
- 6.1 深層強化学習のアルゴリズムマップ
- 6.2 DDQN(Double-DQN)の実装
- 6.3 Dueling Networkの実装
- 6.4 Prioritized Experience Replayの実装
- 6.5 A2C(Synchronous variant of A3C:Asynchronous Advantage Actor Critic)の実装

第7章 Amazon Web Services(AWS)のGPU環境でブロック崩しを実装しよう
- 7.1 ブロック崩しゲーム「Breakout」の解説
- 7.2 AWSでGPUを使用したディープラーニング実行環境を整える方法
- 7.3 Breakoutの学習に重要な4つの工夫
- 7.4 A2Cの実装(前半)
- 7.5 A2Cの実装(後半)

あとがき
索引
参考文献
謝辞

この商品を買った人はこんな商品も買っています


最近チェックした商品

Tポイント利用手続き

         Tポイント利用手続きに関する同意事項

                                株式会社マイナビ出版

株式会社マイナビ出版が提供するマイナビBOOKSにおいてTポイントご利用続きをされる方は、以下に掲げるお客様の個人情報の取り扱いについてご確認の上、ご同意下さい。

マイナビBOOKSにおいてTポイントサービスをご利用いただいた場合に、当社から、次に掲げる<提供情報>を、<提供目的>のためにカルチュア・コンビニエンス・クラブ株式会社(以下「CCC」といいます)へ提供します。

  <提供目的>:CCCの定める個人情報保護方針及びマイナビBOOKSにおけるT会員規約第4条に定める利用目的で利用するためTポイントサービスを利用するため
  <提供情報>:
   1)お客様が【マイナビBOOKS】の正当な利用者であるという情報
   2)ポイント数・利用日
   3)その他、Tポイントサービスを利用するにあたり必要な情報

  <提供方法>: 電磁的記録媒体の送付またはデータ通信による。ただし、提供するデータについては暗号化を施すものとする。

なお、CCCに提供された、以下の情報の利用については、CCCの定める個人情報保護方針及びT会員規約 に沿って取り扱われます。
上記の情報提供の停止をご希望される場合には、【マイナビBOOKS】におけるTポイント利用手続きの解除を実施していただく必要があります。
Tポイント利用手続きの解除、およびTポイントサービスにおける個人情報に関するお問い合わせ先は、以下のとおりです。
お客様お問い合わせ先:Tサイト(http://qa.tsite.jp/faq/show/22612)

 なお、Tポイント利用手続きの解除が完了しますと、マイナビBOOKSにおけるTポイントサービスをご利用いただけなくなりますので、予めご了承ください。

Tポイント利用手続きを行いますか?