兵庫県立図書館
トップメニュー
資料検索
利用登録申込
資料紹介
開館日
カレンダー
Myライブラリ
レファレンス
ふるさとがわかるデータベース
トップメニュー
>
本サイトにはJavaScriptの利用を前提とした機能がございます。
お客様の環境では一部の機能がご利用いただけない可能性がございますので、ご了承ください。
資料詳細
詳細蔵書検索
1 件中、 1 件目
【図書】 強化学習
Richard S.Sutton 共著 -- 森北出版 -- 2022.10 -- 007.13
新着図書お知らせサービス
予約かごへ
本棚へ
所蔵
所蔵は
1
件です。現在の予約件数は
0
件です。
資料コード
請求記号
所蔵館
所蔵場所
資料区分
状態
106779499
/007.1/307/
県立図書館
一般開架
和書
在
状態の表記について
在:「所蔵場所」にあります。
貸出中:館外へ貸出中です。
館内閲覧:館内でご利用ください。館外貸出はできません。
図書館用:館内でご利用ください。図書館(団体)向けに貸し出す資料です。
ページの先頭へ
資料詳細
詳細切替
タイトル
強化学習 第2版
著者
Richard S.Sutton 共著
,
Andrew G.Barto 共著
,
奥村 エルネスト純 監訳
,
鈴木 雅大 監訳
,
松尾 豊 監訳
,
三上 貞芳 監訳
,
山川 宏 監訳
,
今井 翔太 共訳
,
川尻 亮真 共訳
,
菊池 悠太 共訳
,
鮫島 和行 共訳
,
陣内 佑 共訳
,
髙橋 将文 共訳
,
谷口 尚平 共訳
,
藤田 康博 共訳
,
前田 新一 共訳
,
松嶋 達也 共訳
出版者
東京 森北出版
出版年
2022.10
ページ数
18,469p
大きさ
25cm
翻訳原書名注記
原タイトル:Reinforcement learning 原著第2版の翻訳
書誌年譜年表
文献:p427~461
一般件名
人工知能
,
アルゴリズム
NDC分類
007.13
内容紹介
強化学習の主要な考え方やアルゴリズムについて明確かつ簡潔な形で解説した入門書。発展的手法、心理学・神経科学との関係、AlphaGoなどの新しい話題を盛り込んだ第2版。
ISBN
4-627-82662-5
ISBN13桁
978-4-627-82662-5
定価
¥6000
本体価格
¥6000
ページの先頭へ
目次
第1章 序
1.1強化学習
1.2強化学習の例
1.3強化学習の構成要素
1.4強化学習の制約と範囲
1.5拡張された例:三目並べ(tic‐tac‐toe)
1.6ここまでのまとめ
1.7強化学習の成り立ち
第Ⅰ部 テーブル形式の解法
第2章 多腕バンディット問題
2.1k本腕バンディット問題
2.2行動価値手法
2.310本腕バンディットによる実験
2.4逐次的実装
2.5非定常問題を調べる
2.6楽観的初期値
2.7上限信頼区間行動選択
2.8勾配バンディットアルゴリズム
2.9連想探索(文脈付きバンディット)
2.10まとめ
第3章 有限マルコフ決定過程
3.1エージェントと環境の境界
3.2目標と報酬
3.3収益とエピソード
3.4エピソード的タスクと連続タスクの統一的記法
3.5方策と価値関数
3.6最適方策と最適価値関数
3.7最適性と近似
3.8まとめ
第4章 動的計画法
4.1方策評価(予測)
4.2方策改善
4.3方策反復
4.4価値反復
4.5非同期動的計画法
4.6一般化方策反復
4.7動的計画法の効率
4.8まとめ
第5章 モンテカルロ法
5.1モンテカルロ予測
5.2行動価値のモンテカルロ推定
5.3モンテカルロ制御
5.4開始点探索を使わないモンテカルロ制御
5.5重点サンプリングによる方策オフ型予測
5.6逐次的実装
5.7方策オフ型モンテカルロ制御
5.8割引を考慮した重点サンプリング
5.9意思決定ごとの重点サンプリング
5.10まとめ
第6章 TD学習
6.1TD予測
6.2TD予測の利点
6.3TD(0)法の最適性
6.4Sarsa法:方策オン型TD制御
6.5Q学習:方策オフ型TD制御
6.6期待Sarsa法
6.7最大化バイアスと二重学習
6.8ゲーム,事後状態,その他の特別な場合
6.9まとめ
第7章 nステップ・ブートストラップ法
7.1nステップTD予測
7.2nステップSarsa法
7.3nステップ方策オフ型学習
7.4制御変量法による意思決定ごとの手法
7.5重点サンプリングなしの方策オフ型学習;nステップ・ツリー・バックアップ法
7.6統一的なアルゴリズム:nステップQ(σ)法
7.7まとめ
第8章 テーブル形式手法におけるプランニングと学習
8.1モデルとプランニング
8.2Dyna:プランニング,行動,そして学習の統合
8.3モデルに誤りがある場合
8.4優先掃き出し法
8.5期待更新とサンプル更新
8.6遷移軌道サンプリング
8.7リアルタイム動的計画法
8.8意思決定時のプランニング
8.9ヒューリスティック探索
8.10ロールアウトアルゴリズム
8.11モンテカルロ木探索
8.12本章のまとめ
8.13第Ⅰ部のいくつかの軸によるまとめ
第Ⅱ部 近似による解法
第9章 近似を用いた方策オン型予測
9.1価値関数の近似
9.2予測の目的関数(VE)
9.3確率的勾配法と擬似勾配法
9.4線形手法
9.5線形手法のための特徴量設計
9.6ステップサイズパラメータの手動による選択
9.7非線形関数による近似:人工ニューラルネットワーク
9.8最小二乗TD法
9.9メモリベースの関数近似法
9.10カーネル法ベースの関数近似法
9.11方策オン型学習を掘り下げる:興味と強調
9.12まとめ
第10章 関数近似を用いた方策オン型制御
10.1エピソード的擬似勾配制御
10.2擬似勾配nステップSarsa法
10.3平均報酬:連続タスクのための新たな問題設定
10.4割引設定を批判する
10.5差分擬似勾配nステップSarsa法
10.6まとめ
第11章 近似を用いた方策オフ型手法
11.1擬似勾配法
11.2方策オフ型の発散の例
11.3死の三人衆
11.4線形状態価値の幾何
11.5ベルマン誤差の勾配降下
11.6ベルマン誤差の学習不可能性
11.7勾配TD法
11.8強調TD法
11.9分散の低減
11.10まとめ
第12章 適格度トレース
12.1λ収益
12.2TD(λ)法
12.3nステップ打ち切りλ収益法
12.4繰り返し更新:オンラインλ収益アルゴリズム
12.5真のオンラインTD(λ)法
12.6モンテカルロ学習におけるダッチトレース
12.7Sarsa(λ)法
12.8可変のλとγ
12.9制御変量法を用いた方策オフ型適格度トレース
12.10WatkinsのQ(λ)法からツリー・バックアップ(λ)法へ
12.11トレースを用いる安定した方策オフ型手法
12.12実装上の問題
12.13まとめ
第13章 方策勾配法
13.1方策近似とその利点
13.2方策勾配定理
13.3REINFORCEアルゴリズム:モンテカルロ方策勾配
13.4ベースライン付きREINFORCEアルゴリズム
13.5アクター・クリティック法
13.6連続問題に対する方策勾配法
13.7連続行動に対する方策のパラメータ化
13.8まとめ
第Ⅲ部 さらに深く
第14章 心理学
14.1予測と制御
14.2古典的条件づけ
14.3道具的条件づけ
14.4遅延強化
14.5認知地図
14.6習慣行動と目標指向行動
14.7まとめ
第15章 神経科学
15.1神経科学の基礎
15.2報酬信号,強化信号,価値,予測誤差
15.3細酬予測誤差仮説
15.4ドーパミン
15.5報酬予測誤差仮説を支持する実験的事実
15.6TD誤差とドーパミンとの対応関係
15.7ニューラル・アクター・クリティック
15.8アクターとクリティックの学習則
15.9ヘドニスティックニューロン
15.10集団強化学習
15.11脳におけるモデルベース法
15.12依存症
15.13まとめ
第16章 応用と事例紹介
16.1TD-Gammon
16.2Samuelのチェッカープレイヤー
16.3Watsonによるデイリーダブルの賭け戦略
16.4メモリ制御の最適化
16.5人間レベルのビデオゲームプレイ
16.6囲碁の修得
16.7Webサービスのパーソナライズ
16.8サーマルソアリング
第17章 強化学習のこれから
17.1汎用価値関数と補助タスク
17.2オプションによる時間方向の抽象化
17.3観測と状態
17.4報酬信号の設計
17.5残された課題
17.6報酬予測誤差仮説の実験的支持
ページの先頭へ