E-Book, Deutsch, 770 Seiten
Reihe: mitp Professional
Lapan Deep Reinforcement Learning
1. Auflage 2020
ISBN: 978-3-7475-0037-8
Verlag: mitp Verlags GmbH & Co.KG
Format: PDF
Kopierschutz: 0 - No protection
Das umfassende Praxis-Handbuch. Moderne Algorithmen für Chatbots, Robotik, diskrete Optimierung und Web-Automatisierung inkl. Multiagenten-Methoden
E-Book, Deutsch, 770 Seiten
Reihe: mitp Professional
ISBN: 978-3-7475-0037-8
Verlag: mitp Verlags GmbH & Co.KG
Format: PDF
Kopierschutz: 0 - No protection
Zielgruppe
Entwickler und Programmierer für Deep Learning und Machine Learning, Studenten, Data Scientists
Autoren/Hrsg.
Weitere Infos & Material
1;Cover;1
2;Titel;5
3;Impressum;6
4;Inhaltsverzeichnis;7
5;Über den Autor;19
6;Über die Korrektoren;19
7;Über den Fachkorrektor der deutschen Ausgabe;20
8;Einleitung;21
9;Teil I: Grundlagen des Reinforcement Learnings;26
9.1;Kapitel 1: Was ist Reinforcement Learning?;27
9.1.1;1.1 Überwachtes Lernen;27
9.1.2;1.2 Unüberwachtes Lernen;28
9.1.3;1.3 Reinforcement Learning;28
9.1.4;1.4 Herausforderungen beim Reinforcement Learning;30
9.1.5;1.5 RL-Formalismen;30
9.1.5.1;1.5.1 Belohnung;31
9.1.5.2;1.5.2 Der Agent;33
9.1.5.3;1.5.3 Die Umgebung;33
9.1.5.4;1.5.4 Aktionen;33
9.1.5.5;1.5.5 Beobachtungen;34
9.1.6;1.6 Die theoretischen Grundlagen des Reinforcement Learnings;36
9.1.6.1;1.6.1 Markov-Entscheidungsprozesse;37
9.1.6.2;1.6.2 Markov-Prozess;37
9.1.6.3;1.6.3 Markov-Belohnungsprozess;41
9.1.6.4;1.6.4 Aktionen hinzufügen;44
9.1.6.5;1.6.5 Policy;46
9.1.7;1.7 Zusammenfassung;47
9.2;Kapitel 2: OpenAI Gym;49
9.2.1;2.1 Aufbau des Agenten;49
9.2.2;2.2 Anforderungen an Hard- und Software;52
9.2.3;2.3 OpenAI-Gym-API;53
9.2.3.1;2.3.1 Aktionsraum;54
9.2.3.2;2.3.2 Beobachtungsraum;54
9.2.3.3;2.3.3 Die Umgebung;56
9.2.3.4;2.3.4 Erzeugen der Umgebung;57
9.2.3.5;2.3.5 Die CartPole-Sitzung;59
9.2.4;2.4 Ein CartPole-Agent nach dem Zufallsprinzip;61
9.2.5;2.5 Zusätzliche Gym-Funktionalität: Wrapper und Monitor;62
9.2.5.1;2.5.1 Wrapper;63
9.2.5.2;2.5.2 Monitor;65
9.2.6;2.6 Zusammenfassung;68
9.3;Kapitel 3: Deep Learning mit PyTorch;69
9.3.1;3.1 Tensoren;69
9.3.1.1;3.1.1 Tensoren erzeugen;70
9.3.1.2;3.1.2 Skalare Tensoren;72
9.3.1.3;3.1.3 Tensor-Operationen;73
9.3.1.4;3.1.4 GPU-Tensoren;73
9.3.2;3.2 Gradienten;74
9.3.2.1;3.2.1 Tensoren und Gradienten;76
9.3.3;3.3 NN-Bausteine;78
9.3.4;3.4 Benutzerdefinierte Schichten;80
9.3.5;3.5 Verlustfunktionen und Optimierer;82
9.3.5.1;3.5.1 Verlustfunktionen;83
9.3.5.2;3.5.2 Optimierer;83
9.3.6;3.6 Monitoring mit TensorBoard;85
9.3.6.1;3.6.1 Einführung in TensorBoard;86
9.3.6.2;3.6.2 Plotten;87
9.3.7;3.7 Beispiel: GAN für Bilder von Atari-Spielen;89
9.3.8;3.8 PyTorch Ignite;94
9.3.8.1;3.8.1 Konzepte;95
9.3.9;3.9 Zusammenfassung;99
9.4;Kapitel 4: Das Kreuzentropie-Verfahren;101
9.4.1;4.1 Klassifikation von RL-Verfahren;101
9.4.2;4.2 Kreuzentropie in der Praxis;102
9.4.3;4.3 Kreuzentropie beim CartPole;104
9.4.4;4.4 Kreuzentropie beim FrozenLake;113
9.4.5;4.5 Theoretische Grundlagen des Kreuzentropie-Verfahrens;120
9.4.6;4.6 Zusammenfassung;121
10;Teil II: Wertebasierte Verfahren;122
10.1;Kapitel 5: Tabular Learning und das Bellman’sche Optimalitätsprinzip;123
10.1.1;5.1 Wert, Zustand und Optimalität;123
10.1.2;5.2 Das Bellman’sche Optimalitätsprinzip;125
10.1.3;5.3 Aktionswert;128
10.1.4;5.4 Wertiteration;130
10.1.5;5.5 Wertiteration in der Praxis;132
10.1.6;5.6 Q-Learning in der FrozenLake-Umgebung;138
10.1.7;5.7 Zusammenfassung;140
10.2;Kapitel 6: Deep Q-Networks;141
10.2.1;6.1 Wertiteration in der Praxis;141
10.2.2;6.2 Tabular Q-Learning;142
10.2.3;6.3 Deep Q-Learning;147
10.2.3.1;6.3.1 Interaktion mit der Umgebung;149
10.2.3.2;6.3.2 SGD-Optimierung;149
10.2.3.3;6.3.3 Korrelation der Schritte;150
10.2.3.4;6.3.4 Die Markov-Eigenschaft;150
10.2.3.5;6.3.5 Die endgültige Form des DQN-Trainings;151
10.2.4;6.4 DQN mit Pong;152
10.2.4.1;6.4.1 Wrapper;153
10.2.4.2;6.4.2 DQN-Modell;158
10.2.4.3;6.4.3 Training;160
10.2.4.4;6.4.4 Ausführung und Leistung;169
10.2.4.5;6.4.5 Das Modell in Aktion;172
10.2.5;6.5 Weitere Möglichkeiten;174
10.2.6;6.6 Zusammenfassung;175
10.3;Kapitel 7: Allgemeine RL-Bibliotheken;177
10.3.1;7.1 Warum RL-Bibliotheken?;177
10.3.2;7.2 Die PTAN-Bibliothek;178
10.3.2.1;7.2.1 Aktionsselektoren;179
10.3.2.2;7.2.2 Der Agent;181
10.3.2.3;7.2.3 Quelle der Erfahrungswerte;185
10.3.2.4;7.2.4 Replay Buffer für Erfahrungswerte;191
10.3.2.5;7.2.5 Die TargetNet-Klasse;193
10.3.2.6;7.2.6 Hilfsfunktionen für Ignite;195
10.3.3;7.3 Lösung der CartPole-Umgebung mit PTAN;196
10.3.4;7.4 Weitere RL-Bibliotheken;198
10.3.5;7.5 Zusammenfassung;199
10.4;Kapitel 8: DQN-Erweiterungen;201
10.4.1;8.1 Einfaches DQN;201
10.4.1.1;8.1.1 Die Bibliothek common;202
10.4.1.2;8.1.2 Implementierung;207
10.4.1.3;8.1.3 Ergebnisse;209
10.4.2;8.2 N-Schritt-DQN;210
10.4.2.1;8.2.1 Implementierung;213
10.4.2.2;8.2.2 Ergebnisse;213
10.4.3;8.3 Double DQN;214
10.4.3.1;8.3.1 Implementierung;215
10.4.3.2;8.3.2 Ergebnisse;217
10.4.4;8.4 Verrauschte Netze;218
10.4.4.1;8.4.1 Implementierung;219
10.4.4.2;8.4.2 Ergebnisse;221
10.4.5;8.5 Priorisierter Replay Buffer;222
10.4.5.1;8.5.1 Implementierung;223
10.4.5.2;8.5.2 Ergebnisse;227
10.4.6;8.6 Rivalisierendes DQN;229
10.4.6.1;8.6.1 Implementierung;230
10.4.6.2;8.6.2 Ergebnisse;231
10.4.7;8.7 Kategoriales DQN;232
10.4.7.1;8.7.1 Implementierung;234
10.4.7.2;8.7.2 Ergebnisse;241
10.4.8;8.8 Alles miteinander kombinieren;243
10.4.8.1;8.8.1 Ergebnisse;244
10.4.9;8.9 Zusammenfassung;245
10.4.10;8.10 Quellenangaben;246
10.5;Kapitel 9: Beschleunigung von RL-Verfahren;247
10.5.1;9.1 Die Bedeutung der Geschwindigkeit;247
10.5.2;9.2 Der Ausgangspunkt;250
10.5.3;9.3 Der Berechnungsgraph in PyTorch;252
10.5.4;9.4 Mehrere Umgebungen;254
10.5.5;9.5 Spielen und Trainieren in separaten Prozessen;257
10.5.6;9.6 Optimierung der Wrapper;261
10.5.7;9.7 Zusammenfassung der Benchmarks;267
10.5.8;9.8 Atari-Emulation: CuLE;267
10.5.9;9.9 Zusammenfassung;268
10.5.10;9.10 Quellenangaben;268
10.6;Kapitel 10: Aktienhandel per Reinforcement Learning;269
10.6.1;10.1 Börsenhandel;269
10.6.2;10.2 Daten;270
10.6.3;10.3 Aufgabenstellungen und Grundsatzentscheidungen;271
10.6.4;10.4 Die Handelsumgebung;272
10.6.5;10.5 Modelle;281
10.6.6;10.6 Trainingscode;283
10.6.7;10.7 Ergebnisse;283
10.6.7.1;10.7.1 Das Feedforward-Modell;283
10.6.7.2;10.7.2 Das Faltungsmodell;289
10.6.8;10.8 Weitere Möglichkeiten;290
10.6.9;10.9 Zusammenfassung;291
11;Teil III: Policybasierte Verfahren;292
11.1;Kapitel 11: Eine Alternative: Policy Gradients;293
11.1.1;11.1 Werte und Policy;293
11.1.1.1;11.1.1 Warum Policy?;294
11.1.1.2;11.1.2 Repräsentation der Policy;294
11.1.1.3;11.1.3 Policy Gradients;295
11.1.2;11.2 Das REINFORCE-Verfahren;296
11.1.2.1;11.2.1 Das CartPole-Beispiel;297
11.1.2.2;11.2.2 Ergebnisse;301
11.1.2.3;11.2.3 Policybasierte und wertebasierte Verfahren;302
11.1.3;11.3 Probleme mit REINFORCE;303
11.1.3.1;11.3.1 Notwendigkeit vollständiger Episoden;303
11.1.3.2;11.3.2 Große Varianz der Gradienten;304
11.1.3.3;11.3.3 Exploration;304
11.1.3.4;11.3.4 Korrelation zwischen Beispielen;305
11.1.4;11.4 PG mit CartPole;305
11.1.4.1;11.4.1 Implementierung;305
11.1.4.2;11.4.2 Ergebnisse;308
11.1.5;11.5 PG mit Pong;312
11.1.5.1;11.5.1 Implementierung;313
11.1.5.2;11.5.2 Ergebnisse;314
11.1.6;11.6 Zusammenfassung;315
11.2;Kapitel 12: Das Actor-Critic-Verfahren;317
11.2.1;12.1 Verringern der Varianz;317
11.2.2;12.2 Varianz der CartPole-Umgebung;319
11.2.3;12.3 Actor-Critic;322
11.2.4;12.4 A2C mit Pong;324
11.2.5;12.5 A2C mit Pong: Ergebnisse;330
11.2.6;12.6 Optimierung der Hyperparameter;333
11.2.6.1;12.6.1 Lernrate;334
11.2.6.2;12.6.2 Beta;335
11.2.6.3;12.6.3 Anzahl der Umgebungen;335
11.2.6.4;12.6.4 Batchgröße;335
11.2.7;12.7 Zusammenfassung;335
11.3;Kapitel 13: Asynchronous Advantage Actor Critic;337
11.3.1;13.1 Korrelation und Stichprobeneffizienz;337
11.3.2;13.2 Ein weiteres A zu A2C hinzufügen;338
11.3.3;13.3 Multiprocessing in Python;341
11.3.4;13.4 A3C mit Datenparallelität;341
11.3.4.1;13.4.1 Implementierung;341
11.3.4.2;13.4.2 Ergebnisse;348
11.3.5;13.5 A3C mit Gradientenparallelität;349
11.3.5.1;13.5.1 Implementierung;350
11.3.5.2;13.5.2 Ergebnisse;355
11.3.6;13.6 Zusammenfassung;356
11.4;Kapitel 14: Chatbot-Training per Reinforcement Learning;357
11.4.1;14.1 Chatbots – ein Überblick;357
11.4.2;14.2 Chatbot-Training;358
11.4.3;14.3 Grundlagen der Verarbeitung natürlicher Sprache;359
11.4.3.1;14.3.1 Rekurrente neuronale Netze;359
11.4.3.2;14.3.2 Wort-Embeddings;361
11.4.3.3;14.3.3 Encoder-Decoder;362
11.4.4;14.4 Seq2Seq-Training;363
11.4.4.1;14.4.1 Log-Likelihood-Training;363
11.4.4.2;14.4.2 Der BLEU-Score;365
11.4.4.3;14.4.3 RL und Seq2Seq;366
11.4.4.4;14.4.4 Self-critical Sequence Training;367
11.4.5;14.5 Das Chatbot-Beispiel;368
11.4.5.1;14.5.1 Aufbau des Beispiels;368
11.4.5.2;14.5.2 Module: cornell.py und data.py;369
11.4.5.3;14.5.3 BLEU-Score und utils.py;370
11.4.5.4;14.5.4 Modell;371
11.4.6;14.6 Daten überprüfen;378
11.4.7;14.7 Training: Kreuzentropie;380
11.4.7.1;14.7.1 Implementierung;380
11.4.7.2;14.7.2 Ergebnisse;384
11.4.8;14.8 Training: Self-critical Sequence Training (SCST);387
11.4.8.1;14.8.1 Implementierung;387
11.4.8.2;14.8.2 Ergebnisse;394
11.4.9;14.9 Tests der Modelle mit Daten;397
11.4.10;14.10 Telegram-Bot;399
11.4.11;14.11 Zusammenfassung;403
11.5;Kapitel 15: Die TextWorld-Umgebung;405
11.5.1;15.1 Interactive Fiction;405
11.5.2;15.2 Die Umgebung;408
11.5.2.1;15.2.1 Installation;409
11.5.2.2;15.2.2 Spiel erzeugen;409
11.5.2.3;15.2.3 Beobachtungs- und Aktionsräume;411
11.5.2.4;15.2.4 Zusätzliche Informationen;413
11.5.3;15.3 Einfaches DQN;416
11.5.3.1;15.3.1 Vorverarbeitung von Beobachtungen;418
11.5.3.2;15.3.2 Embeddings und Encoder;423
11.5.3.3;15.3.3 DQN-Modell und Agent;426
11.5.3.4;15.3.4 Trainingscode;428
11.5.3.5;15.3.5 Trainingsergebnisse;428
11.5.4;15.4 Das Modell für den Befehlsgenerator;433
11.5.4.1;15.4.1 Implementierung;435
11.5.4.2;15.4.2 Ergebnisse des Pretrainings;439
11.5.4.3;15.4.3 DQN-Trainingscode;441
11.5.4.4;15.4.4 Ergebnis des DQN-Trainings;443
11.5.5;15.5 Zusammenfassung;444
11.6;Kapitel 16: Navigation im Web;445
11.6.1;16.1 Webnavigation;445
11.6.1.1;16.1.1 Browserautomatisierung und RL;446
11.6.1.2;16.1.2 Mini World of Bits;447
11.6.2;16.2 OpenAI Universe;448
11.6.2.1;16.2.1 Installation;449
11.6.2.2;16.2.2 Aktionen und Beobachtungen;450
11.6.2.3;16.2.3 Umgebung erzeugen;451
11.6.2.4;16.2.4 MiniWoB-Stabilität;453
11.6.3;16.3 Einfaches Anklicken;453
11.6.3.1;16.3.1 Aktionen auf dem Gitter;454
11.6.3.2;16.3.2 Übersicht der Beispiele;455
11.6.3.3;16.3.3 Modell;456
11.6.3.4;16.3.4 Trainingscode;457
11.6.3.5;16.3.5 Container starten;462
11.6.3.6;16.3.6 Trainingsprozess;463
11.6.3.7;16.3.7 Überprüfen der erlernten Policy;466
11.6.3.8;16.3.8 Probleme mit einfachem Anklicken;467
11.6.4;16.4 Demonstrationen durch den Menschen;469
11.6.4.1;16.4.1 Aufzeichnung von Demonstrationen;470
11.6.4.2;16.4.2 Aufzeichnungsformat;472
11.6.4.3;16.4.3 Training durch Demonstration;475
11.6.4.4;16.4.4 Ergebnisse;476
11.6.4.5;16.4.5 Tic-Tac-Toe;480
11.6.5;16.5 Hinzufügen von Beschreibungstext;482
11.6.5.1;16.5.1 Implementierung;483
11.6.5.2;16.5.2 Ergebnisse;488
11.6.6;16.6 Weitere Möglichkeiten;491
11.6.7;16.7 Zusammenfassung;491
12;Teil IV: Fortgeschrittene Verfahren und Techniken;492
12.1;Kapitel 17: Stetige Aktionsräume;493
12.1.1;17.1 Wozu stetige Aktionsräume?;493
12.1.2;17.2 Aktionsraum;494
12.1.3;17.3 Umgebungen;494
12.1.4;17.4 Das A2C-Verfahren;497
12.1.4.1;17.4.1 Implementierung;498
12.1.4.2;17.4.2 Ergebnisse;501
12.1.4.3;17.4.3 Modelle verwenden und Videos aufzeichnen;503
12.1.5;17.5 Deterministisches Policy-Gradienten-Verfahren;504
12.1.5.1;17.5.1 Exploration;505
12.1.5.2;17.5.2 Implementierung;506
12.1.5.3;17.5.3 Ergebnisse;511
12.1.5.4;17.5.4 Videos aufzeichnen;513
12.1.6;17.6 Distributional Policy Gradients;513
12.1.6.1;17.6.1 Architektur;514
12.1.6.2;17.6.2 Implementierung;514
12.1.6.3;17.6.3 Ergebnisse;519
12.1.6.4;17.6.4 Videoaufzeichnung;521
12.1.7;17.7 Weitere Möglichkeiten;521
12.1.8;17.8 Zusammenfassung;521
12.2;Kapitel 18: RL in der Robotik;523
12.2.1;18.1 Roboter und Robotik;523
12.2.1.1;18.1.1 Komplexität von Robotern;525
12.2.1.2;18.1.2 Hardware;526
12.2.1.3;18.1.3 Plattform;527
12.2.1.4;18.1.4 Sensoren;528
12.2.1.5;18.1.5 Aktuatoren;530
12.2.1.6;18.1.6 Rahmen;530
12.2.2;18.2 Ein erstes Trainingsziel;534
12.2.3;18.3 Emulator und Modell;536
12.2.3.1;18.3.1 Definitionsdatei des Modells;537
12.2.3.2;18.3.2 Die robot-Klasse;541
12.2.4;18.4 DDPG-Training und Ergebnisse;547
12.2.5;18.5 Steuerung der Hardware;550
12.2.5.1;18.5.1 MicroPython;550
12.2.5.2;18.5.2 Handhabung von Sensoren;554
12.2.5.3;18.5.3 Servos ansteuern;567
12.2.5.4;18.5.4 Einrichtung des Modells auf der Hardware;571
12.2.5.5;18.5.5 Alles kombinieren;579
12.2.6;18.6 Experimente mit der Policy;582
12.2.7;18.7 Zusammenfassung;583
12.3;Kapitel 19: Trust Regions – PPO, TRPO, ACKTR und SAC;585
12.3.1;19.1 Roboschool;586
12.3.2;19.2 Standard-A2C-Verfahren;586
12.3.2.1;19.2.1 Implementierung;586
12.3.2.2;19.2.2 Ergebnisse;588
12.3.2.3;19.2.3 Videoaufzeichnungen;592
12.3.3;19.3 Proximal Policy Optimization (PPO);592
12.3.3.1;19.3.1 Implementierung;593
12.3.3.2;19.3.2 Ergebnisse;597
12.3.4;19.4 Trust Region Policy Optimization (TRPO);599
12.3.4.1;19.4.1 Implementierung;599
12.3.4.2;19.4.2 Ergebnisse;601
12.3.5;19.5 Advantage Actor-Critic mit Kronecker-Factored Trust Region (ACKTR);602
12.3.5.1;19.5.1 Implementierung;603
12.3.5.2;19.5.2 Ergebnisse;603
12.3.6;19.6 Soft-Actor-Critic (SAC);604
12.3.6.1;19.6.1 Implementierung;605
12.3.6.2;19.6.2 Ergebnisse;607
12.3.7;19.7 Zusammenfassung;609
12.4;Kapitel 20: Blackbox-Optimierung beim Reinforcement Learning;611
12.4.1;20.1 Blackbox-Verfahren;611
12.4.2;20.2 Evolutionsstrategien (ES);612
12.4.3;20.3 ES mit CartPole;613
12.4.3.1;20.3.1 Ergebnisse;618
12.4.4;20.4 ES mit HalfCheetah;619
12.4.4.1;20.4.1 Implementierung;620
12.4.4.2;20.4.2 Ergebnisse;624
12.4.5;20.5 Genetische Algorithmen (GA);626
12.4.6;20.6 GA mit CartPole;626
12.4.6.1;20.6.1 Ergebnisse;628
12.4.7;20.7 GA-Optimierung;629
12.4.7.1;20.7.1 Deep GA;630
12.4.7.2;20.7.2 Novelty Search;630
12.4.8;20.8 GA mit HalfCheetah;630
12.4.8.1;20.8.1 Ergebnisse;633
12.4.9;20.9 Zusammenfassung;635
12.4.10;20.10 Quellenangaben;635
12.5;Kapitel 21: Fortgeschrittene Exploration;637
12.5.1;21.1 Die Bedeutung der Exploration;637
12.5.2;21.2 Was ist das Problem beim ?-Greedy-Ansatz?;638
12.5.3;21.3 Alternative Explorationsverfahren;641
12.5.3.1;21.3.1 Verrauschte Netze;641
12.5.3.2;21.3.2 Zählerbasierte Verfahren;642
12.5.3.3;21.3.3 Vorhersagebasierte Verfahren;643
12.5.4;21.4 MountainCar-Experimente;643
12.5.4.1;21.4.1 Das DQN-Verfahren mit ?-Greedy-Ansatz;645
12.5.4.2;21.4.2 Das DQN-Verfahren mit verrauschten Netzen;646
12.5.4.3;21.4.3 Das DQN-Verfahren mit Zustandszählern;648
12.5.4.4;21.4.4 Das PPO-Verfahren;651
12.5.4.5;21.4.5 Das PPO-Verfahren mit verrauschten Netzen;654
12.5.4.6;21.4.6 Das PPO-Verfahren mit zählerbasierter Exploration;656
12.5.4.7;21.4.7 Das PPO-Verfahren mit Netz-Destillation;658
12.5.5;21.5 Atari-Experimente;660
12.5.5.1;21.5.1 Das DQN-Verfahren mit ?-Greedy-Ansatz;661
12.5.5.2;21.5.2 Das klassische PPO-Verfahren;662
12.5.5.3;21.5.3 Das PPO-Verfahren mit Netz-Destillation;663
12.5.5.4;21.5.4 Das PPO-Verfahren mit verrauschten Netzen;664
12.5.6;21.6 Zusammenfassung;665
12.5.7;21.7 Quellenangaben;665
12.6;Kapitel 22: Jenseits modellfreier Verfahren – Imagination;667
12.6.1;22.1 Modellbasierte Verfahren;667
12.6.1.1;22.1.1 Modellbasierte und modellfreie Verfahren;667
12.6.2;22.2 Unzulänglichkeiten der Modelle;668
12.6.3;22.3 Imagination-augmented Agent;670
12.6.3.1;22.3.1 Das Umgebungsmodell;671
12.6.3.2;22.3.2 Die Rollout-Policy;672
12.6.3.3;22.3.3 Der Rollout-Encoder;672
12.6.3.4;22.3.4 Ergebnisse der Arbeit;672
12.6.4;22.4 I2A mit dem Atari-Spiel Breakout;672
12.6.4.1;22.4.1 Der Standard-A2C-Agent;673
12.6.4.2;22.4.2 Training des Umgebungsmodells;674
12.6.4.3;22.4.3 Der Imagination-Agent;677
12.6.5;22.5 Ergebnisse der Experimente;683
12.6.5.1;22.5.1 Der Basis-Agent;683
12.6.5.2;22.5.2 Training der EM-Gewichte;685
12.6.5.3;22.5.3 Training mit dem I2A-Modell;687
12.6.6;22.6 Zusammenfassung;690
12.6.7;22.7 Quellenangaben;690
12.7;Kapitel 23: AlphaGo Zero;691
12.7.1;23.1 Brettspiele;691
12.7.2;23.2 Das AlphaGo-Zero-Verfahren;692
12.7.2.1;23.2.1 Überblick;692
12.7.2.2;23.2.2 Monte-Carlo-Baumsuche;693
12.7.2.3;23.2.3 Self-Playing;695
12.7.2.4;23.2.4 Training und Bewertung;696
12.7.3;23.3 Vier-gewinnt-Bot;696
12.7.3.1;23.3.1 Spielmodell;697
12.7.3.2;23.3.2 Implementierung der Monte-Carlo-Baumsuche;699
12.7.3.3;23.3.3 Modell;704
12.7.3.4;23.3.4 Training;707
12.7.3.5;23.3.5 Test und Vergleich;707
12.7.4;23.4 Vier gewinnt: Ergebnisse;708
12.7.5;23.5 Zusammenfassung;710
12.7.6;23.6 Quellenangaben;710
12.8;Kapitel 24: RL und diskrete Optimierung;711
12.8.1;24.1 Die Reputation von Reinforcement Learnings;711
12.8.2;24.2 Zauberwürfel und kombinatorische Optimierung;712
12.8.3;24.3 Optimalität und Gottes Zahl;713
12.8.4;24.4 Ansätze zur Lösung;714
12.8.4.1;24.4.1 Datenrepräsentation;714
12.8.4.2;24.4.2 Aktionen;714
12.8.4.3;24.4.3 Zustände;715
12.8.5;24.5 Trainingsvorgang;719
12.8.5.1;24.5.1 Architektur des neuronalen Netzes;719
12.8.5.2;24.5.2 Training;720
12.8.6;24.6 Anwendung des Modells;721
12.8.7;24.7 Ergebnisse der Arbeit;723
12.8.8;24.8 Code;724
12.8.8.1;24.8.1 Würfel-Umgebungen;725
12.8.8.2;24.8.2 Training;729
12.8.8.3;24.8.3 Suchvorgang;731
12.8.9;24.9 Ergebnisse des Experiments;731
12.8.9.1;24.9.1 Der 2x2-Würfel;733
12.8.9.2;24.9.2 Der 3x3-Würfel;735
12.8.9.3;24.9.3 Weitere Verbesserungen und Experimente;736
12.8.10;24.10 Zusammenfassung;737
12.9;Kapitel 25: RL mit mehreren Agenten;739
12.9.1;25.1 Mehrere Agenten;739
12.9.1.1;25.1.1 Kommunikationsformen;740
12.9.1.2;25.1.2 Der RL-Ansatz;740
12.9.2;25.2 Die MAgent-Umgebung;740
12.9.2.1;25.2.1 Installation;741
12.9.2.2;25.2.2 Überblick;741
12.9.2.3;25.2.3 Eine zufällige Umgebung;741
12.9.3;25.3 Deep Q-Networks für Tiger;747
12.9.3.1;25.3.1 Training und Ergebnisse;750
12.9.4;25.4 Zusammenarbeit der Tiger;752
12.9.5;25.5 Training der Tiger und Hirsche;756
12.9.6;25.6 Der Kampf ebenbürtiger Akteure;757
12.9.7;25.7 Zusammenfassung;758
13;Stichwortverzeichnis;759