資料詳細

詳細蔵書検索

【図書】強化学習

Richard S.Sutton　共著 -- 森北出版 -- 2022.10 -- 007.13

所蔵

所蔵は 1 件です。現在の予約件数は 0 件です。

資料コード	請求記号	所蔵館	所蔵場所	資料区分	状態
106779499	/007.1/307/	県立図書館	一般開架	和書	在

状態の表記について
   在：「所蔵場所」にあります。
   貸出中：館外へ貸出中です。

   館内閲覧：館内でご利用ください。館外貸出はできません。
   図書館用：館内でご利用ください。図書館（団体）向けに貸し出す資料です。

ページの先頭へ

資料詳細

詳細切替

タイトル	強化学習第2版
著者	Richard S.Sutton　共著 , Andrew G.Barto　共著 , 奥村　エルネスト純　監訳 , 鈴木　雅大　監訳 , 松尾　豊　監訳 , 三上　貞芳　監訳 , 山川　宏　監訳 , 今井　翔太　共訳 , 川尻　亮真　共訳 , 菊池　悠太　共訳 , 鮫島　和行　共訳 , 陣内　佑　共訳 , 髙橋　将文　共訳 , 谷口　尚平　共訳 , 藤田　康博　共訳 , 前田　新一　共訳 , 松嶋　達也　共訳
出版者	東京　森北出版
出版年	2022.10
ページ数	18,469p
大きさ	25cm
翻訳原書名注記	原タイトル:Reinforcement learning 原著第2版の翻訳
書誌年譜年表	文献:p427～461
一般件名	人工知能 , アルゴリズム
NDC分類	007.13
内容紹介	強化学習の主要な考え方やアルゴリズムについて明確かつ簡潔な形で解説した入門書。発展的手法、心理学・神経科学との関係、AlphaGoなどの新しい話題を盛り込んだ第2版。
ISBN	4-627-82662-5
ISBN13桁	978-4-627-82662-5
定価	¥6000
本体価格	¥6000

ページの先頭へ

第1章序: 1.1強化学習; 1.2強化学習の例; 1.3強化学習の構成要素; 1.4強化学習の制約と範囲; 1.5拡張された例:三目並べ(tic‐tac‐toe); 1.6ここまでのまとめ; 1.7強化学習の成り立ち
第Ⅰ部テーブル形式の解法
第2章多腕バンディット問題: 2.1k本腕バンディット問題; 2.2行動価値手法; 2.310本腕バンディットによる実験; 2.4逐次的実装; 2.5非定常問題を調べる; 2.6楽観的初期値; 2.7上限信頼区間行動選択; 2.8勾配バンディットアルゴリズム; 2.9連想探索(文脈付きバンディット); 2.10まとめ
第3章有限マルコフ決定過程: 3.1エージェントと環境の境界; 3.2目標と報酬; 3.3収益とエピソード; 3.4エピソード的タスクと連続タスクの統一的記法; 3.5方策と価値関数; 3.6最適方策と最適価値関数; 3.7最適性と近似; 3.8まとめ
第4章動的計画法: 4.1方策評価(予測); 4.2方策改善; 4.3方策反復; 4.4価値反復; 4.5非同期動的計画法; 4.6一般化方策反復; 4.7動的計画法の効率; 4.8まとめ
第5章モンテカルロ法: 5.1モンテカルロ予測; 5.2行動価値のモンテカルロ推定; 5.3モンテカルロ制御; 5.4開始点探索を使わないモンテカルロ制御; 5.5重点サンプリングによる方策オフ型予測; 5.6逐次的実装; 5.7方策オフ型モンテカルロ制御; 5.8割引を考慮した重点サンプリング; 5.9意思決定ごとの重点サンプリング; 5.10まとめ
第6章 TD学習: 6.1TD予測; 6.2TD予測の利点; 6.3TD(0)法の最適性; 6.4Sarsa法:方策オン型TD制御; 6.5Q学習:方策オフ型TD制御; 6.6期待Sarsa法; 6.7最大化バイアスと二重学習; 6.8ゲーム,事後状態,その他の特別な場合; 6.9まとめ
第7章 nステップ・ブートストラップ法: 7.1nステップTD予測; 7.2nステップSarsa法; 7.3nステップ方策オフ型学習; 7.4制御変量法による意思決定ごとの手法; 7.5重点サンプリングなしの方策オフ型学習;nステップ・ツリー・バックアップ法; 7.6統一的なアルゴリズム:nステップQ(σ)法; 7.7まとめ
第8章テーブル形式手法におけるプランニングと学習: 8.1モデルとプランニング; 8.2Dyna:プランニング,行動,そして学習の統合; 8.3モデルに誤りがある場合; 8.4優先掃き出し法; 8.5期待更新とサンプル更新; 8.6遷移軌道サンプリング; 8.7リアルタイム動的計画法; 8.8意思決定時のプランニング; 8.9ヒューリスティック探索; 8.10ロールアウトアルゴリズム; 8.11モンテカルロ木探索; 8.12本章のまとめ; 8.13第Ⅰ部のいくつかの軸によるまとめ
第Ⅱ部近似による解法
第9章近似を用いた方策オン型予測: 9.1価値関数の近似; 9.2予測の目的関数(VE); 9.3確率的勾配法と擬似勾配法; 9.4線形手法; 9.5線形手法のための特徴量設計; 9.6ステップサイズパラメータの手動による選択; 9.7非線形関数による近似:人工ニューラルネットワーク; 9.8最小二乗TD法; 9.9メモリベースの関数近似法; 9.10カーネル法ベースの関数近似法; 9.11方策オン型学習を掘り下げる:興味と強調; 9.12まとめ
第10章関数近似を用いた方策オン型制御: 10.1エピソード的擬似勾配制御; 10.2擬似勾配nステップSarsa法; 10.3平均報酬:連続タスクのための新たな問題設定; 10.4割引設定を批判する; 10.5差分擬似勾配nステップSarsa法; 10.6まとめ
第11章近似を用いた方策オフ型手法: 11.1擬似勾配法; 11.2方策オフ型の発散の例; 11.3死の三人衆; 11.4線形状態価値の幾何; 11.5ベルマン誤差の勾配降下; 11.6ベルマン誤差の学習不可能性; 11.7勾配TD法; 11.8強調TD法; 11.9分散の低減; 11.10まとめ
第12章適格度トレース: 12.1λ収益; 12.2TD(λ)法; 12.3nステップ打ち切りλ収益法; 12.4繰り返し更新:オンラインλ収益アルゴリズム; 12.5真のオンラインTD(λ)法; 12.6モンテカルロ学習におけるダッチトレース; 12.7Sarsa(λ)法; 12.8可変のλとγ; 12.9制御変量法を用いた方策オフ型適格度トレース; 12.10WatkinsのQ(λ)法からツリー・バックアップ(λ)法へ; 12.11トレースを用いる安定した方策オフ型手法; 12.12実装上の問題; 12.13まとめ
第13章方策勾配法: 13.1方策近似とその利点; 13.2方策勾配定理; 13.3REINFORCEアルゴリズム:モンテカルロ方策勾配; 13.4ベースライン付きREINFORCEアルゴリズム; 13.5アクター・クリティック法; 13.6連続問題に対する方策勾配法; 13.7連続行動に対する方策のパラメータ化; 13.8まとめ
第Ⅲ部さらに深く
第14章心理学: 14.1予測と制御; 14.2古典的条件づけ; 14.3道具的条件づけ; 14.4遅延強化; 14.5認知地図; 14.6習慣行動と目標指向行動; 14.7まとめ
第15章神経科学: 15.1神経科学の基礎; 15.2報酬信号,強化信号,価値,予測誤差; 15.3細酬予測誤差仮説; 15.4ドーパミン; 15.5報酬予測誤差仮説を支持する実験的事実; 15.6TD誤差とドーパミンとの対応関係; 15.7ニューラル・アクター・クリティック; 15.8アクターとクリティックの学習則; 15.9ヘドニスティックニューロン; 15.10集団強化学習; 15.11脳におけるモデルベース法; 15.12依存症; 15.13まとめ
第16章応用と事例紹介: 16.1TD-Gammon; 16.2Samuelのチェッカープレイヤー; 16.3Watsonによるデイリーダブルの賭け戦略; 16.4メモリ制御の最適化; 16.5人間レベルのビデオゲームプレイ; 16.6囲碁の修得; 16.7Webサービスのパーソナライズ; 16.8サーマルソアリング
第17章強化学習のこれから: 17.1汎用価値関数と補助タスク; 17.2オプションによる時間方向の抽象化; 17.3観測と状態; 17.4報酬信号の設計; 17.5残された課題; 17.6報酬予測誤差仮説の実験的支持

ページの先頭へ

兵庫県立図書館

資料詳細

所蔵

資料詳細

詳細切替

目次

資料詳細

所蔵

資料詳細 詳細切替

目次

資料詳細

詳細切替