強くなるロボティック・ゲームプレイヤーの作り方 プレミアムブックス版 | マイナビブックス

強くなるロボティック・ゲームプレイヤーの作り方 プレミアムブックス版 実践で学ぶ強化学習

  • 著作者名:八谷大岳杉山将
    • 書籍:4,180円
    • 電子版:3,344円
  • B5変型判:228ページ
  • ISBN:978-4-8399-5673-8
  • 発売日:2016年06月08日
  • シリーズ名:プレミアムブックス
  • 備考:オンラインストア限定販売
    中級
  • mixiチェック
  • このエントリーをはてなブックマークに追加

内容紹介

機械学習の代表的な理論「強化学習」の実践教科書!

コンピュータ・エージェントやロボットなどの自律的な学習を実現するための計算理論である「強化学習」について、数学的背景から実装、最新の動向まで幅広く解説した本。

「強化学習(Reinforcement Learning)」とは、人間や動物が持つ学習機能の一部をコンピュータで実現することを目指すコンピュータサイエンスの研究分野の一つです。強化学習の応用先は、ゲームプレイヤーの行動戦略、ロボットの動作、マーケティング戦略をコンピュータに自動的に学習させるなど、多岐に渡ります。そのため、強化学習は非常に活発に研究され、すさまじい勢いで発展しています。
本書では、強化学習の基礎理論から、アルゴリズム、プログラミングによる実装、さらには応用事例まで、幅広い内容を扱っています。

『本書の最大の特徴は、強化学習の数学的な理論を紹介するだけでなく、強化学習をゲームやロボット制御に応用する例を、実際にプログラミングできる形で提供しているところです。数学は得意だけどプログラミングによる実装は苦手な理論派の読者の方は、まずプログラムをダウンロードして実行してみて下さい。強化学習が秘める潜在能力を十分に堪能して頂けると思います。一方、プログラミングには興味はあるけど数学的な理論はよくわからないという応用志向の強い読者の方は、プログラムコードと平行して理論を学ぶことにより、強化学習理論の有用性を効率よく学んで頂けると思います。』(著者「まえがき」より)

強化学習に関して、理論の学習と実践とを効率よく学べる構成となっています。
自律ロボットやAIを学ぶ学生、戦略を学習するゲームキャラクターを作りたいプログラマーはもちろん、経験を反映するシステムを作りたい人などにも学ぶ価値のある内容となっています。

※本書は2008年8月小社刊行の同名書籍をプレミアムブックス版として復刊したものです。内容は元版から変更されておりません。

続きを読む

電子版の購入は姉妹サイト「IT書籍ストア Manatee」がオススメ!
充実のラインナップに加え、割引セールも定期的に実施中!

商品を選択する

フォーマット 価格 備考
書籍(受注生産) 4,180 受注生産のため、決済完了から約10日後の発送となります。
PDF 3,344 ※当商品は発送を伴いません。「マイページ」からファイルをダウンロードしてください。
※ご購入された電子書籍には、購入者情報、および暗号化したコードが埋め込まれております。
※購入者の個人的な利用目的以外での電子書籍の複製を禁じております。無断で複製・掲載および販売を行った場合、法律により罰せられる可能性もございますので、ご遠慮ください。

電子書籍フォーマットについて

  

備考

●八谷 大岳(はちや ひろたか)
1976年北海道生まれ。大学卒業と同時にIT系の会社を起業し、Webサービスからロボット制御まで幅広くソフトウェア開発に携わる。2004年から2006年まで海外留学し、イギリスのエディンバラ大学にて修士号を取得。2009年には、東京工業大学にて博士号を取得。
現在は、企業にて研究開発に従事。専門分野は、機械学習のアルゴリズムの研究開発とそのロボット制御、コンピュータビジョン及びセンサーデータ解析への応用。

●杉山 将(すぎやま まさし)
東京大学 大学院新領域創成科学研究科 複雑理工学専攻
教授 博士(工学)
1974年大阪生まれ。情報工学の学士(工学)、修士(工学)、博士(工学)の学位をそれぞれ1997年、1999年、2001年に東京工業大学から取得。2001年より同大学の助手、2003年より助教授(2007年より准教授に改称)。2014年より東京大学教授。2003年から2004年にかけ、アレキサンダー・フォン・フンボルト財団フェローとしてドイツ・ベルリンのフラウンホーファー研究所に滞在。2006年にはヨーロッパ委員会エラスムス・ムンダス助成を受け、英国・エディンバラのエディンバラ大学に滞在。非定常環境下での機械学習の研究に対して2007年IBM Faculty Awardを受賞。密度比推定に基づく機械学習の研究に対して、2011年情報処理学会長尾真記念特別賞および2014年度科学技術分野の文部科学大臣表彰若手科学者賞を受賞。機械学習とデータマイニングの理論研究とアルゴリズムの開発、および、その信号処理、画像処理、ロボット制御などへの応用研究に従事(研究に関する詳細はこちらをご覧ください)。

目次

1章 “強くなる”ロボティック・ゲームプレイヤーを作るには
  1.1 “学習機能”の必要性
  1.2 NPC(Non-Player Charactor)の行動戦略の学習
  1.2 ロボットの動作の学習
2章 学習とは
  2.1 学習の定義
   2.1.1 心理学における学習
   2.1.2 認知心理学の学習
   2.1.3 脳科学における学習
  2.2 コンピュータの学習
    ・教師付き学習問題
    ・教師なし学習問題
    ・強化学習問題
  2.3 答えを知らないロボット
3章 強化学習
  3.1 強化学習の背景
   3.1.1 最適制御理論
   3.1.2 動的計画法
  3.2 強化学習の構成
  3.3 マルコフ決定過程
  3.4 最適政策関数
  3.5 状態価値関数
  3.6 状態・行動価値関数
  3.7 動的計画法の問題点
4章 離散的な空間での学習
  4.1 はじめに
  4.2 ルックアップテーブルで表される価値関数の例
  4.3 標本を抽出する
  4.4 モンテカルロ法
    4.4.1 モンテカルロ法の基礎
    4.4.2 標本の独立性
    4.4.3 政策改善
    4.4.4 政策反復
    4.4.5 モンテカルロ法を用いた政策反復法のアルゴリズム
    4.4.6 モンテカルロ法の問題点
  4.5 価値関数近似における教師付き学習
  4.6 TD法
    4.6.1 TD法の基礎
    4.6.2 SARSA法を用いた政策反復アルゴリズム
    4.6.3 TD(λ)法
    4.6.4 TD(λ)法を用いた政策反復アルゴリズム
  4.7 Q学習
    4.7.1 Q学習の基礎
    4.7.2 Q学習のアルゴリズム
  4.8 三目並べ(Tic-Tac-Toe)の例
    4.8.1 三目並べとは
    4.8,2 状態空間と行動空間の設計
    4.8.3 プログラム
    4.8.4 モンテカルロ法の実装
    4.8.5 SARSA法の実装
    4.8.6 TD(λ)法の実装
    4.8.7 Q学習の実装
  4.9 実行例
    4.9.1 設定
    4.9.2 学習用プログラムの実行例
    4.9.3 結果
    4.9.4 対戦用プログラムの実行例
5章 連続的な空間での学習
  5.1 はじめに
  5.2 台車の山登りゲーム
  5.3 価値関数の近似誤差
    5.3.1 TD二乗誤差
    5.3.2 ベルマン二乗残差
    5.3.3 TD(λ)二乗誤差
  5.4 価値関数のモデル
    5.4.1 線形モデル
  5.5 カーネルモデル
  5.6 線形モデルの最小二乗推定
    5.6.1 最良線形不偏推定量
    5.6.2 線形モデル最小二乗法による政策反復アルゴリズム
    5.6.3 価値関数近似の例
  5.7 カーネルモデルの最小二乗推定
    5.7.1 カーネルモデルの最小二乗法による政策反復アルゴリズム
    5.7.2 価値関数近似の例
  5.8 アクロボットの例
    5.8.1 状態空間と行動空間の設計
    5.8.2 報酬関数の設計
    5.8.3 プログラム
    5.8.4 線形モデル用最小二乗法による政策反復アルゴリズムの実装
    5.8.5 カーネルモデル最小二乗法による政策反復アルゴリズムの実装
    5.8.6 実行例
    5.8.7 結果
6章 政策を直接近似する
  6.1 はじめに
  6.2 政策勾配法
  6.3 最小分散ベースライン
  6.4 ガウスモデル政策モデル
  6.5 自然政策勾配法
  6.6 政策勾配の例
  6.7 4足ロボットへの実装
    6.7.1 実装するロボットの定義
    6.7.2 状態空間と行動空間の設計
    6.7.3 報酬関数の設計
    6.7.4 プログラム
    6.7.5 政策勾配アルゴリズムの実装
    6.7.6 自然政策勾配法アルゴリズムの実装
    6.7.7 実行例
    6.7.8 結果
7章 強化学習最前線
  7.1 政策オフ型強化学習
  7.2 半教師あり学習
    ・指導学習
    ・見真似学習
  7.3 転移学習
  7.4 表現政策反復
  7.5 リスクを考慮した強化学習
  7.6 階層的強化学習
  7.7 能動学習
  7.8 次元削除
  7.9 モデル選択
  7.10 部分観測マルコフ過程

Appendix A ソフトウェアのインストール
Appendix B プログラムリスト
 

最近チェックした商品

Vポイント利用手続き

         Vポイント利用手続きに関する同意事項

                                株式会社マイナビ出版

株式会社マイナビ出版が提供するマイナビBOOKSにおいてVポイントご利用続きをされる方は、以下に掲げるお客様の個人情報の取り扱いについてご確認の上、ご同意下さい。

マイナビBOOKSにおいてVポイントサービスをご利用いただいた場合に、当社から、次に掲げる<提供情報>を、<提供目的>のためにCCCMKホールディングス株式会社(以下、「MKHD」といいます)へ提供します。

  <提供目的>:MKHDの定める個人情報保護方針及びマイナビBOOKSにおけるT会員規約第4条に定める利用目的で利用するためVポイントサービスを利用するため
  <提供情報>:
   1)お客様が【マイナビBOOKS】の正当な利用者であるという情報
   2)ポイント数・利用日
   3)その他、Vポイントサービスを利用するにあたり必要な情報

  <提供方法>: 電磁的記録媒体の送付またはデータ通信による。ただし、提供するデータについては暗号化を施すものとする。

なお、MKHDに提供された、以下の情報の利用については、MKHDの定める個人情報保護方針及びT会員規約 に沿って取り扱われます。
上記の情報提供の停止をご希望される場合には、【マイナビBOOKS】におけるVポイント利用手続きの解除を実施していただく必要があります。
Vポイント利用手続きの解除、およびVポイントサービスにおける個人情報に関するお問い合わせ先は、以下のとおりです。
お客様お問い合わせ先:Tサイト(https://tsite.jp/contact/index.pl )

 なお、Vポイント利用手続きの解除が完了しますと、マイナビBOOKSにおけるVポイントサービスをご利用いただけなくなりますので、予めご了承ください。

Vポイント利用手続きを行いますか?