資料詳細

Richard S.Sutton 共著 -- 森北出版 -- 2022.10 -- 007.13

所蔵

所蔵は 1 件です。現在の予約件数は 0 件です。

資料コード 請求記号 所蔵館 所蔵場所 資料区分 状態
106779499 /007.1/307/ 県立図書館 一般開架 和書
状態の表記について
   在:「所蔵場所」にあります。
   貸出中:館外へ貸出中です。

   館内閲覧:館内でご利用ください。館外貸出はできません。
   図書館用:館内でご利用ください。図書館(団体)向けに貸し出す資料です。

タイトル 強化学習 第2版
著者 Richard S.Sutton 共著 , Andrew G.Barto 共著 , 奥村 エルネスト純 監訳 , 鈴木 雅大 監訳 , 松尾 豊 監訳 , 三上 貞芳 監訳 , 山川 宏 監訳 , 今井 翔太 共訳 , 川尻 亮真 共訳 , 菊池 悠太 共訳 , 鮫島 和行 共訳 , 陣内 佑 共訳 , 髙橋 将文 共訳 , 谷口 尚平 共訳 , 藤田 康博 共訳 , 前田 新一 共訳 , 松嶋 達也 共訳  
出版者 東京  森北出版
出版年 2022.10
ページ数 18,469p
大きさ 25cm
翻訳原書名注記 原タイトル:Reinforcement learning 原著第2版の翻訳
書誌年譜年表 文献:p427~461
一般件名 人工知能 , アルゴリズム
NDC分類 007.13
内容紹介 強化学習の主要な考え方やアルゴリズムについて明確かつ簡潔な形で解説した入門書。発展的手法、心理学・神経科学との関係、AlphaGoなどの新しい話題を盛り込んだ第2版。
ISBN 4-627-82662-5
ISBN13桁 978-4-627-82662-5
定価 ¥6000
本体価格 ¥6000

目次

第1章 序
  1.1強化学習
  1.2強化学習の例
  1.3強化学習の構成要素
  1.4強化学習の制約と範囲
  1.5拡張された例:三目並べ(tic‐tac‐toe)
  1.6ここまでのまとめ
  1.7強化学習の成り立ち
第Ⅰ部 テーブル形式の解法
第2章 多腕バンディット問題
  2.1k本腕バンディット問題
  2.2行動価値手法
  2.310本腕バンディットによる実験
  2.4逐次的実装
  2.5非定常問題を調べる
  2.6楽観的初期値
  2.7上限信頼区間行動選択
  2.8勾配バンディットアルゴリズム
  2.9連想探索(文脈付きバンディット)
  2.10まとめ
第3章 有限マルコフ決定過程
  3.1エージェントと環境の境界
  3.2目標と報酬
  3.3収益とエピソード
  3.4エピソード的タスクと連続タスクの統一的記法
  3.5方策と価値関数
  3.6最適方策と最適価値関数
  3.7最適性と近似
  3.8まとめ
第4章 動的計画法
  4.1方策評価(予測)
  4.2方策改善
  4.3方策反復
  4.4価値反復
  4.5非同期動的計画法
  4.6一般化方策反復
  4.7動的計画法の効率
  4.8まとめ
第5章 モンテカルロ法
  5.1モンテカルロ予測
  5.2行動価値のモンテカルロ推定
  5.3モンテカルロ制御
  5.4開始点探索を使わないモンテカルロ制御
  5.5重点サンプリングによる方策オフ型予測
  5.6逐次的実装
  5.7方策オフ型モンテカルロ制御
  5.8割引を考慮した重点サンプリング
  5.9意思決定ごとの重点サンプリング
  5.10まとめ
第6章 TD学習
  6.1TD予測
  6.2TD予測の利点
  6.3TD(0)法の最適性
  6.4Sarsa法:方策オン型TD制御
  6.5Q学習:方策オフ型TD制御
  6.6期待Sarsa法
  6.7最大化バイアスと二重学習
  6.8ゲーム,事後状態,その他の特別な場合
  6.9まとめ
第7章 nステップ・ブートストラップ法
  7.1nステップTD予測
  7.2nステップSarsa法
  7.3nステップ方策オフ型学習
  7.4制御変量法による意思決定ごとの手法
  7.5重点サンプリングなしの方策オフ型学習;nステップ・ツリー・バックアップ法
  7.6統一的なアルゴリズム:nステップQ(σ)法
  7.7まとめ
第8章 テーブル形式手法におけるプランニングと学習
  8.1モデルとプランニング
  8.2Dyna:プランニング,行動,そして学習の統合
  8.3モデルに誤りがある場合
  8.4優先掃き出し法
  8.5期待更新とサンプル更新
  8.6遷移軌道サンプリング
  8.7リアルタイム動的計画法
  8.8意思決定時のプランニング
  8.9ヒューリスティック探索
  8.10ロールアウトアルゴリズム
  8.11モンテカルロ木探索
  8.12本章のまとめ
  8.13第Ⅰ部のいくつかの軸によるまとめ
第Ⅱ部 近似による解法
第9章 近似を用いた方策オン型予測
  9.1価値関数の近似
  9.2予測の目的関数(VE)
  9.3確率的勾配法と擬似勾配法
  9.4線形手法
  9.5線形手法のための特徴量設計
  9.6ステップサイズパラメータの手動による選択
  9.7非線形関数による近似:人工ニューラルネットワーク
  9.8最小二乗TD法
  9.9メモリベースの関数近似法
  9.10カーネル法ベースの関数近似法
  9.11方策オン型学習を掘り下げる:興味と強調
  9.12まとめ
第10章 関数近似を用いた方策オン型制御
  10.1エピソード的擬似勾配制御
  10.2擬似勾配nステップSarsa法
  10.3平均報酬:連続タスクのための新たな問題設定
  10.4割引設定を批判する
  10.5差分擬似勾配nステップSarsa法
  10.6まとめ
第11章 近似を用いた方策オフ型手法
  11.1擬似勾配法
  11.2方策オフ型の発散の例
  11.3死の三人衆
  11.4線形状態価値の幾何
  11.5ベルマン誤差の勾配降下
  11.6ベルマン誤差の学習不可能性
  11.7勾配TD法
  11.8強調TD法
  11.9分散の低減
  11.10まとめ
第12章 適格度トレース
  12.1λ収益
  12.2TD(λ)法
  12.3nステップ打ち切りλ収益法
  12.4繰り返し更新:オンラインλ収益アルゴリズム
  12.5真のオンラインTD(λ)法
  12.6モンテカルロ学習におけるダッチトレース
  12.7Sarsa(λ)法
  12.8可変のλとγ
  12.9制御変量法を用いた方策オフ型適格度トレース
  12.10WatkinsのQ(λ)法からツリー・バックアップ(λ)法へ
  12.11トレースを用いる安定した方策オフ型手法
  12.12実装上の問題
  12.13まとめ
第13章 方策勾配法
  13.1方策近似とその利点
  13.2方策勾配定理
  13.3REINFORCEアルゴリズム:モンテカルロ方策勾配
  13.4ベースライン付きREINFORCEアルゴリズム
  13.5アクター・クリティック法
  13.6連続問題に対する方策勾配法
  13.7連続行動に対する方策のパラメータ化
  13.8まとめ
第Ⅲ部 さらに深く
第14章 心理学
  14.1予測と制御
  14.2古典的条件づけ
  14.3道具的条件づけ
  14.4遅延強化
  14.5認知地図
  14.6習慣行動と目標指向行動
  14.7まとめ
第15章 神経科学
  15.1神経科学の基礎
  15.2報酬信号,強化信号,価値,予測誤差
  15.3細酬予測誤差仮説
  15.4ドーパミン
  15.5報酬予測誤差仮説を支持する実験的事実
  15.6TD誤差とドーパミンとの対応関係
  15.7ニューラル・アクター・クリティック
  15.8アクターとクリティックの学習則
  15.9ヘドニスティックニューロン
  15.10集団強化学習
  15.11脳におけるモデルベース法
  15.12依存症
  15.13まとめ
第16章 応用と事例紹介
  16.1TD-Gammon
  16.2Samuelのチェッカープレイヤー
  16.3Watsonによるデイリーダブルの賭け戦略
  16.4メモリ制御の最適化
  16.5人間レベルのビデオゲームプレイ
  16.6囲碁の修得
  16.7Webサービスのパーソナライズ
  16.8サーマルソアリング
第17章 強化学習のこれから
  17.1汎用価値関数と補助タスク
  17.2オプションによる時間方向の抽象化
  17.3観測と状態
  17.4報酬信号の設計
  17.5残された課題
  17.6報酬予測誤差仮説の実験的支持