Lapan | Deep Reinforcement Learning | E-Book | sack.de
E-Book

E-Book, Deutsch, 770 Seiten

Reihe: mitp Professional

Lapan Deep Reinforcement Learning

Das umfassende Praxis-Handbuch. Moderne Algorithmen für Chatbots, Robotik, diskrete Optimierung und Web-Automatisierung inkl. Multiagenten-Methoden
1. Auflage 2020
ISBN: 978-3-7475-0037-8
Verlag: mitp Verlags GmbH & Co.KG
Format: PDF
Kopierschutz: 0 - No protection

Das umfassende Praxis-Handbuch. Moderne Algorithmen für Chatbots, Robotik, diskrete Optimierung und Web-Automatisierung inkl. Multiagenten-Methoden

E-Book, Deutsch, 770 Seiten

Reihe: mitp Professional

ISBN: 978-3-7475-0037-8
Verlag: mitp Verlags GmbH & Co.KG
Format: PDF
Kopierschutz: 0 - No protection



Alle wichtigen Methoden und Algorithmen praxisnah erläutert mit Codebeispielen in PythonSelbstständig lernende Agenten programmieren für die Steuerung von Robotern, NLP in interaktiven Spielen, Chatbots und mehrDeep Q-Networks, Wertiteration, Policy Gradients, Trust Region Policy Optimization (TRPO), genetische Algorithmen, moderne Explorationsverfahren u.v.m.Reinforcement Learning ist ein Teilgebiet des Machine Learnings. Hierbei werden selbstständig lernende Agenten programmiert, deren Lernvorgang ausschließlich durch ein Belohnungssystem und die Beobachtung der Umgebung gesteuert wird.In diesem umfassenden Praxis-Handbuch zeigt Ihnen Maxim Lapan, wie Sie diese zukunftsweisende Technologie in der Praxis einsetzen. Sie lernen, wie Sie passende RL-Methoden für Ihre Problemstellung auswählen und mithilfe von Deep-Learning-Methoden Agenten für verschiedene Aufgaben trainieren wie zum Beispiel für das Lösen eines Zauberwürfels, für Natural Language Processing in Microsofts TextWorld-Umgebung oder zur Realisierung moderner Chatbots.Alle Beispiele sind so gewählt, dass sie leicht verständlich sind und Sie diese auch ohne Zugang zu sehr großer Rechenleistung umsetzen können. Unter Einsatz von Python und der Bibliothek PyTorch ermöglicht Ihnen der Autor so einen einfachen und praktischen Einstieg in die Konzepte und Methoden des Reinforcement Learnings wie Deep Q-Networks, Wertiteration, Policy Gradients, Trust Region Policy Optimization (TRPO), genetische Algorithmen und viele mehr.Es werden grundlegende Kenntnisse in Machine Learning und Deep Learning sowie ein sicherer Umgang mit Python vorausgesetzt.Aus dem Inhalt:Implementierung komplexer Deep-Learning-Modelle mit RL in tiefen neuronalen NetzenErmitteln der passenden RL-Methoden für verschiedene Problemstellungen, darunter DQN, Advantage Actor Critic, PPO, TRPO, DDPG, D4PG und mehrBauen und Trainieren eines kostengünstigen Hardware-RobotersNLP in Microsofts TextWorld-Umgebung für interaktive SpieleDiskrete Optimierung für das Lösen von ZauberwürfelnTrainieren von Agenten für Vier Gewinnt mittels AlphaGo ZeroDie neuesten Deep-RL-Methoden für ChatbotsModerne Explorationsverfahren wie verrauschte Netze und Netz-Destillation
Lapan Deep Reinforcement Learning jetzt bestellen!

Zielgruppe


Entwickler und Programmierer für Deep Learning und Machine Learning, Studenten, Data Scientists


Autoren/Hrsg.


Weitere Infos & Material


1;Cover;1
2;Titel;5
3;Impressum;6
4;Inhaltsverzeichnis;7
5;Über den Autor;19
6;Über die Korrektoren;19
7;Über den Fachkorrektor der deutschen Ausgabe;20
8;Einleitung;21
9;Teil I: Grundlagen des Reinforcement Learnings;26
9.1;Kapitel 1: Was ist Reinforcement Learning?;27
9.1.1;1.1 Überwachtes Lernen;27
9.1.2;1.2 Unüberwachtes Lernen;28
9.1.3;1.3 Reinforcement Learning;28
9.1.4;1.4 Herausforderungen beim Reinforcement Learning;30
9.1.5;1.5 RL-Formalismen;30
9.1.5.1;1.5.1 Belohnung;31
9.1.5.2;1.5.2 Der Agent;33
9.1.5.3;1.5.3 Die Umgebung;33
9.1.5.4;1.5.4 Aktionen;33
9.1.5.5;1.5.5 Beobachtungen;34
9.1.6;1.6 Die theoretischen Grundlagen des Reinforcement Learnings;36
9.1.6.1;1.6.1 Markov-Entscheidungsprozesse;37
9.1.6.2;1.6.2 Markov-Prozess;37
9.1.6.3;1.6.3 Markov-Belohnungsprozess;41
9.1.6.4;1.6.4 Aktionen hinzufügen;44
9.1.6.5;1.6.5 Policy;46
9.1.7;1.7 Zusammenfassung;47
9.2;Kapitel 2: OpenAI Gym;49
9.2.1;2.1 Aufbau des Agenten;49
9.2.2;2.2 Anforderungen an Hard- und Software;52
9.2.3;2.3 OpenAI-Gym-API;53
9.2.3.1;2.3.1 Aktionsraum;54
9.2.3.2;2.3.2 Beobachtungsraum;54
9.2.3.3;2.3.3 Die Umgebung;56
9.2.3.4;2.3.4 Erzeugen der Umgebung;57
9.2.3.5;2.3.5 Die CartPole-Sitzung;59
9.2.4;2.4 Ein CartPole-Agent nach dem Zufallsprinzip;61
9.2.5;2.5 Zusätzliche Gym-Funktionalität: Wrapper und Monitor;62
9.2.5.1;2.5.1 Wrapper;63
9.2.5.2;2.5.2 Monitor;65
9.2.6;2.6 Zusammenfassung;68
9.3;Kapitel 3: Deep Learning mit PyTorch;69
9.3.1;3.1 Tensoren;69
9.3.1.1;3.1.1 Tensoren erzeugen;70
9.3.1.2;3.1.2 Skalare Tensoren;72
9.3.1.3;3.1.3 Tensor-Operationen;73
9.3.1.4;3.1.4 GPU-Tensoren;73
9.3.2;3.2 Gradienten;74
9.3.2.1;3.2.1 Tensoren und Gradienten;76
9.3.3;3.3 NN-Bausteine;78
9.3.4;3.4 Benutzerdefinierte Schichten;80
9.3.5;3.5 Verlustfunktionen und Optimierer;82
9.3.5.1;3.5.1 Verlustfunktionen;83
9.3.5.2;3.5.2 Optimierer;83
9.3.6;3.6 Monitoring mit TensorBoard;85
9.3.6.1;3.6.1 Einführung in TensorBoard;86
9.3.6.2;3.6.2 Plotten;87
9.3.7;3.7 Beispiel: GAN für Bilder von Atari-Spielen;89
9.3.8;3.8 PyTorch Ignite;94
9.3.8.1;3.8.1 Konzepte;95
9.3.9;3.9 Zusammenfassung;99
9.4;Kapitel 4: Das Kreuzentropie-Verfahren;101
9.4.1;4.1 Klassifikation von RL-Verfahren;101
9.4.2;4.2 Kreuzentropie in der Praxis;102
9.4.3;4.3 Kreuzentropie beim CartPole;104
9.4.4;4.4 Kreuzentropie beim FrozenLake;113
9.4.5;4.5 Theoretische Grundlagen des Kreuzentropie-Verfahrens;120
9.4.6;4.6 Zusammenfassung;121
10;Teil II: Wertebasierte Verfahren;122
10.1;Kapitel 5: Tabular Learning und das Bellman’sche Optimalitätsprinzip;123
10.1.1;5.1 Wert, Zustand und Optimalität;123
10.1.2;5.2 Das Bellman’sche Optimalitätsprinzip;125
10.1.3;5.3 Aktionswert;128
10.1.4;5.4 Wertiteration;130
10.1.5;5.5 Wertiteration in der Praxis;132
10.1.6;5.6 Q-Learning in der FrozenLake-Umgebung;138
10.1.7;5.7 Zusammenfassung;140
10.2;Kapitel 6: Deep Q-Networks;141
10.2.1;6.1 Wertiteration in der Praxis;141
10.2.2;6.2 Tabular Q-Learning;142
10.2.3;6.3 Deep Q-Learning;147
10.2.3.1;6.3.1 Interaktion mit der Umgebung;149
10.2.3.2;6.3.2 SGD-Optimierung;149
10.2.3.3;6.3.3 Korrelation der Schritte;150
10.2.3.4;6.3.4 Die Markov-Eigenschaft;150
10.2.3.5;6.3.5 Die endgültige Form des DQN-Trainings;151
10.2.4;6.4 DQN mit Pong;152
10.2.4.1;6.4.1 Wrapper;153
10.2.4.2;6.4.2 DQN-Modell;158
10.2.4.3;6.4.3 Training;160
10.2.4.4;6.4.4 Ausführung und Leistung;169
10.2.4.5;6.4.5 Das Modell in Aktion;172
10.2.5;6.5 Weitere Möglichkeiten;174
10.2.6;6.6 Zusammenfassung;175
10.3;Kapitel 7: Allgemeine RL-Bibliotheken;177
10.3.1;7.1 Warum RL-Bibliotheken?;177
10.3.2;7.2 Die PTAN-Bibliothek;178
10.3.2.1;7.2.1 Aktionsselektoren;179
10.3.2.2;7.2.2 Der Agent;181
10.3.2.3;7.2.3 Quelle der Erfahrungswerte;185
10.3.2.4;7.2.4 Replay Buffer für Erfahrungswerte;191
10.3.2.5;7.2.5 Die TargetNet-Klasse;193
10.3.2.6;7.2.6 Hilfsfunktionen für Ignite;195
10.3.3;7.3 Lösung der CartPole-Umgebung mit PTAN;196
10.3.4;7.4 Weitere RL-Bibliotheken;198
10.3.5;7.5 Zusammenfassung;199
10.4;Kapitel 8: DQN-Erweiterungen;201
10.4.1;8.1 Einfaches DQN;201
10.4.1.1;8.1.1 Die Bibliothek common;202
10.4.1.2;8.1.2 Implementierung;207
10.4.1.3;8.1.3 Ergebnisse;209
10.4.2;8.2 N-Schritt-DQN;210
10.4.2.1;8.2.1 Implementierung;213
10.4.2.2;8.2.2 Ergebnisse;213
10.4.3;8.3 Double DQN;214
10.4.3.1;8.3.1 Implementierung;215
10.4.3.2;8.3.2 Ergebnisse;217
10.4.4;8.4 Verrauschte Netze;218
10.4.4.1;8.4.1 Implementierung;219
10.4.4.2;8.4.2 Ergebnisse;221
10.4.5;8.5 Priorisierter Replay Buffer;222
10.4.5.1;8.5.1 Implementierung;223
10.4.5.2;8.5.2 Ergebnisse;227
10.4.6;8.6 Rivalisierendes DQN;229
10.4.6.1;8.6.1 Implementierung;230
10.4.6.2;8.6.2 Ergebnisse;231
10.4.7;8.7 Kategoriales DQN;232
10.4.7.1;8.7.1 Implementierung;234
10.4.7.2;8.7.2 Ergebnisse;241
10.4.8;8.8 Alles miteinander kombinieren;243
10.4.8.1;8.8.1 Ergebnisse;244
10.4.9;8.9 Zusammenfassung;245
10.4.10;8.10 Quellenangaben;246
10.5;Kapitel 9: Beschleunigung von RL-Verfahren;247
10.5.1;9.1 Die Bedeutung der Geschwindigkeit;247
10.5.2;9.2 Der Ausgangspunkt;250
10.5.3;9.3 Der Berechnungsgraph in PyTorch;252
10.5.4;9.4 Mehrere Umgebungen;254
10.5.5;9.5 Spielen und Trainieren in separaten Prozessen;257
10.5.6;9.6 Optimierung der Wrapper;261
10.5.7;9.7 Zusammenfassung der Benchmarks;267
10.5.8;9.8 Atari-Emulation: CuLE;267
10.5.9;9.9 Zusammenfassung;268
10.5.10;9.10 Quellenangaben;268
10.6;Kapitel 10: Aktienhandel per Reinforcement Learning;269
10.6.1;10.1 Börsenhandel;269
10.6.2;10.2 Daten;270
10.6.3;10.3 Aufgabenstellungen und Grundsatzentscheidungen;271
10.6.4;10.4 Die Handelsumgebung;272
10.6.5;10.5 Modelle;281
10.6.6;10.6 Trainingscode;283
10.6.7;10.7 Ergebnisse;283
10.6.7.1;10.7.1 Das Feedforward-Modell;283
10.6.7.2;10.7.2 Das Faltungsmodell;289
10.6.8;10.8 Weitere Möglichkeiten;290
10.6.9;10.9 Zusammenfassung;291
11;Teil III: Policybasierte Verfahren;292
11.1;Kapitel 11: Eine Alternative: Policy Gradients;293
11.1.1;11.1 Werte und Policy;293
11.1.1.1;11.1.1 Warum Policy?;294
11.1.1.2;11.1.2 Repräsentation der Policy;294
11.1.1.3;11.1.3 Policy Gradients;295
11.1.2;11.2 Das REINFORCE-Verfahren;296
11.1.2.1;11.2.1 Das CartPole-Beispiel;297
11.1.2.2;11.2.2 Ergebnisse;301
11.1.2.3;11.2.3 Policybasierte und wertebasierte Verfahren;302
11.1.3;11.3 Probleme mit REINFORCE;303
11.1.3.1;11.3.1 Notwendigkeit vollständiger Episoden;303
11.1.3.2;11.3.2 Große Varianz der Gradienten;304
11.1.3.3;11.3.3 Exploration;304
11.1.3.4;11.3.4 Korrelation zwischen Beispielen;305
11.1.4;11.4 PG mit CartPole;305
11.1.4.1;11.4.1 Implementierung;305
11.1.4.2;11.4.2 Ergebnisse;308
11.1.5;11.5 PG mit Pong;312
11.1.5.1;11.5.1 Implementierung;313
11.1.5.2;11.5.2 Ergebnisse;314
11.1.6;11.6 Zusammenfassung;315
11.2;Kapitel 12: Das Actor-Critic-Verfahren;317
11.2.1;12.1 Verringern der Varianz;317
11.2.2;12.2 Varianz der CartPole-Umgebung;319
11.2.3;12.3 Actor-Critic;322
11.2.4;12.4 A2C mit Pong;324
11.2.5;12.5 A2C mit Pong: Ergebnisse;330
11.2.6;12.6 Optimierung der Hyperparameter;333
11.2.6.1;12.6.1 Lernrate;334
11.2.6.2;12.6.2 Beta;335
11.2.6.3;12.6.3 Anzahl der Umgebungen;335
11.2.6.4;12.6.4 Batchgröße;335
11.2.7;12.7 Zusammenfassung;335
11.3;Kapitel 13: Asynchronous Advantage Actor Critic;337
11.3.1;13.1 Korrelation und Stichprobeneffizienz;337
11.3.2;13.2 Ein weiteres A zu A2C hinzufügen;338
11.3.3;13.3 Multiprocessing in Python;341
11.3.4;13.4 A3C mit Datenparallelität;341
11.3.4.1;13.4.1 Implementierung;341
11.3.4.2;13.4.2 Ergebnisse;348
11.3.5;13.5 A3C mit Gradientenparallelität;349
11.3.5.1;13.5.1 Implementierung;350
11.3.5.2;13.5.2 Ergebnisse;355
11.3.6;13.6 Zusammenfassung;356
11.4;Kapitel 14: Chatbot-Training per Reinforcement Learning;357
11.4.1;14.1 Chatbots – ein Überblick;357
11.4.2;14.2 Chatbot-Training;358
11.4.3;14.3 Grundlagen der Verarbeitung natürlicher Sprache;359
11.4.3.1;14.3.1 Rekurrente neuronale Netze;359
11.4.3.2;14.3.2 Wort-Embeddings;361
11.4.3.3;14.3.3 Encoder-Decoder;362
11.4.4;14.4 Seq2Seq-Training;363
11.4.4.1;14.4.1 Log-Likelihood-Training;363
11.4.4.2;14.4.2 Der BLEU-Score;365
11.4.4.3;14.4.3 RL und Seq2Seq;366
11.4.4.4;14.4.4 Self-critical Sequence Training;367
11.4.5;14.5 Das Chatbot-Beispiel;368
11.4.5.1;14.5.1 Aufbau des Beispiels;368
11.4.5.2;14.5.2 Module: cornell.py und data.py;369
11.4.5.3;14.5.3 BLEU-Score und utils.py;370
11.4.5.4;14.5.4 Modell;371
11.4.6;14.6 Daten überprüfen;378
11.4.7;14.7 Training: Kreuzentropie;380
11.4.7.1;14.7.1 Implementierung;380
11.4.7.2;14.7.2 Ergebnisse;384
11.4.8;14.8 Training: Self-critical Sequence Training (SCST);387
11.4.8.1;14.8.1 Implementierung;387
11.4.8.2;14.8.2 Ergebnisse;394
11.4.9;14.9 Tests der Modelle mit Daten;397
11.4.10;14.10 Telegram-Bot;399
11.4.11;14.11 Zusammenfassung;403
11.5;Kapitel 15: Die TextWorld-Umgebung;405
11.5.1;15.1 Interactive Fiction;405
11.5.2;15.2 Die Umgebung;408
11.5.2.1;15.2.1 Installation;409
11.5.2.2;15.2.2 Spiel erzeugen;409
11.5.2.3;15.2.3 Beobachtungs- und Aktionsräume;411
11.5.2.4;15.2.4 Zusätzliche Informationen;413
11.5.3;15.3 Einfaches DQN;416
11.5.3.1;15.3.1 Vorverarbeitung von Beobachtungen;418
11.5.3.2;15.3.2 Embeddings und Encoder;423
11.5.3.3;15.3.3 DQN-Modell und Agent;426
11.5.3.4;15.3.4 Trainingscode;428
11.5.3.5;15.3.5 Trainingsergebnisse;428
11.5.4;15.4 Das Modell für den Befehlsgenerator;433
11.5.4.1;15.4.1 Implementierung;435
11.5.4.2;15.4.2 Ergebnisse des Pretrainings;439
11.5.4.3;15.4.3 DQN-Trainingscode;441
11.5.4.4;15.4.4 Ergebnis des DQN-Trainings;443
11.5.5;15.5 Zusammenfassung;444
11.6;Kapitel 16: Navigation im Web;445
11.6.1;16.1 Webnavigation;445
11.6.1.1;16.1.1 Browserautomatisierung und RL;446
11.6.1.2;16.1.2 Mini World of Bits;447
11.6.2;16.2 OpenAI Universe;448
11.6.2.1;16.2.1 Installation;449
11.6.2.2;16.2.2 Aktionen und Beobachtungen;450
11.6.2.3;16.2.3 Umgebung erzeugen;451
11.6.2.4;16.2.4 MiniWoB-Stabilität;453
11.6.3;16.3 Einfaches Anklicken;453
11.6.3.1;16.3.1 Aktionen auf dem Gitter;454
11.6.3.2;16.3.2 Übersicht der Beispiele;455
11.6.3.3;16.3.3 Modell;456
11.6.3.4;16.3.4 Trainingscode;457
11.6.3.5;16.3.5 Container starten;462
11.6.3.6;16.3.6 Trainingsprozess;463
11.6.3.7;16.3.7 Überprüfen der erlernten Policy;466
11.6.3.8;16.3.8 Probleme mit einfachem Anklicken;467
11.6.4;16.4 Demonstrationen durch den Menschen;469
11.6.4.1;16.4.1 Aufzeichnung von Demonstrationen;470
11.6.4.2;16.4.2 Aufzeichnungsformat;472
11.6.4.3;16.4.3 Training durch Demonstration;475
11.6.4.4;16.4.4 Ergebnisse;476
11.6.4.5;16.4.5 Tic-Tac-Toe;480
11.6.5;16.5 Hinzufügen von Beschreibungstext;482
11.6.5.1;16.5.1 Implementierung;483
11.6.5.2;16.5.2 Ergebnisse;488
11.6.6;16.6 Weitere Möglichkeiten;491
11.6.7;16.7 Zusammenfassung;491
12;Teil IV: Fortgeschrittene Verfahren und Techniken;492
12.1;Kapitel 17: Stetige Aktionsräume;493
12.1.1;17.1 Wozu stetige Aktionsräume?;493
12.1.2;17.2 Aktionsraum;494
12.1.3;17.3 Umgebungen;494
12.1.4;17.4 Das A2C-Verfahren;497
12.1.4.1;17.4.1 Implementierung;498
12.1.4.2;17.4.2 Ergebnisse;501
12.1.4.3;17.4.3 Modelle verwenden und Videos aufzeichnen;503
12.1.5;17.5 Deterministisches Policy-Gradienten-Verfahren;504
12.1.5.1;17.5.1 Exploration;505
12.1.5.2;17.5.2 Implementierung;506
12.1.5.3;17.5.3 Ergebnisse;511
12.1.5.4;17.5.4 Videos aufzeichnen;513
12.1.6;17.6 Distributional Policy Gradients;513
12.1.6.1;17.6.1 Architektur;514
12.1.6.2;17.6.2 Implementierung;514
12.1.6.3;17.6.3 Ergebnisse;519
12.1.6.4;17.6.4 Videoaufzeichnung;521
12.1.7;17.7 Weitere Möglichkeiten;521
12.1.8;17.8 Zusammenfassung;521
12.2;Kapitel 18: RL in der Robotik;523
12.2.1;18.1 Roboter und Robotik;523
12.2.1.1;18.1.1 Komplexität von Robotern;525
12.2.1.2;18.1.2 Hardware;526
12.2.1.3;18.1.3 Plattform;527
12.2.1.4;18.1.4 Sensoren;528
12.2.1.5;18.1.5 Aktuatoren;530
12.2.1.6;18.1.6 Rahmen;530
12.2.2;18.2 Ein erstes Trainingsziel;534
12.2.3;18.3 Emulator und Modell;536
12.2.3.1;18.3.1 Definitionsdatei des Modells;537
12.2.3.2;18.3.2 Die robot-Klasse;541
12.2.4;18.4 DDPG-Training und Ergebnisse;547
12.2.5;18.5 Steuerung der Hardware;550
12.2.5.1;18.5.1 MicroPython;550
12.2.5.2;18.5.2 Handhabung von Sensoren;554
12.2.5.3;18.5.3 Servos ansteuern;567
12.2.5.4;18.5.4 Einrichtung des Modells auf der Hardware;571
12.2.5.5;18.5.5 Alles kombinieren;579
12.2.6;18.6 Experimente mit der Policy;582
12.2.7;18.7 Zusammenfassung;583
12.3;Kapitel 19: Trust Regions – PPO, TRPO, ACKTR und SAC;585
12.3.1;19.1 Roboschool;586
12.3.2;19.2 Standard-A2C-Verfahren;586
12.3.2.1;19.2.1 Implementierung;586
12.3.2.2;19.2.2 Ergebnisse;588
12.3.2.3;19.2.3 Videoaufzeichnungen;592
12.3.3;19.3 Proximal Policy Optimization (PPO);592
12.3.3.1;19.3.1 Implementierung;593
12.3.3.2;19.3.2 Ergebnisse;597
12.3.4;19.4 Trust Region Policy Optimization (TRPO);599
12.3.4.1;19.4.1 Implementierung;599
12.3.4.2;19.4.2 Ergebnisse;601
12.3.5;19.5 Advantage Actor-Critic mit Kronecker-Factored Trust Region (ACKTR);602
12.3.5.1;19.5.1 Implementierung;603
12.3.5.2;19.5.2 Ergebnisse;603
12.3.6;19.6 Soft-Actor-Critic (SAC);604
12.3.6.1;19.6.1 Implementierung;605
12.3.6.2;19.6.2 Ergebnisse;607
12.3.7;19.7 Zusammenfassung;609
12.4;Kapitel 20: Blackbox-Optimierung beim Reinforcement Learning;611
12.4.1;20.1 Blackbox-Verfahren;611
12.4.2;20.2 Evolutionsstrategien (ES);612
12.4.3;20.3 ES mit CartPole;613
12.4.3.1;20.3.1 Ergebnisse;618
12.4.4;20.4 ES mit HalfCheetah;619
12.4.4.1;20.4.1 Implementierung;620
12.4.4.2;20.4.2 Ergebnisse;624
12.4.5;20.5 Genetische Algorithmen (GA);626
12.4.6;20.6 GA mit CartPole;626
12.4.6.1;20.6.1 Ergebnisse;628
12.4.7;20.7 GA-Optimierung;629
12.4.7.1;20.7.1 Deep GA;630
12.4.7.2;20.7.2 Novelty Search;630
12.4.8;20.8 GA mit HalfCheetah;630
12.4.8.1;20.8.1 Ergebnisse;633
12.4.9;20.9 Zusammenfassung;635
12.4.10;20.10 Quellenangaben;635
12.5;Kapitel 21: Fortgeschrittene Exploration;637
12.5.1;21.1 Die Bedeutung der Exploration;637
12.5.2;21.2 Was ist das Problem beim ?-Greedy-Ansatz?;638
12.5.3;21.3 Alternative Explorationsverfahren;641
12.5.3.1;21.3.1 Verrauschte Netze;641
12.5.3.2;21.3.2 Zählerbasierte Verfahren;642
12.5.3.3;21.3.3 Vorhersagebasierte Verfahren;643
12.5.4;21.4 MountainCar-Experimente;643
12.5.4.1;21.4.1 Das DQN-Verfahren mit ?-Greedy-Ansatz;645
12.5.4.2;21.4.2 Das DQN-Verfahren mit verrauschten Netzen;646
12.5.4.3;21.4.3 Das DQN-Verfahren mit Zustandszählern;648
12.5.4.4;21.4.4 Das PPO-Verfahren;651
12.5.4.5;21.4.5 Das PPO-Verfahren mit verrauschten Netzen;654
12.5.4.6;21.4.6 Das PPO-Verfahren mit zählerbasierter Exploration;656
12.5.4.7;21.4.7 Das PPO-Verfahren mit Netz-Destillation;658
12.5.5;21.5 Atari-Experimente;660
12.5.5.1;21.5.1 Das DQN-Verfahren mit ?-Greedy-Ansatz;661
12.5.5.2;21.5.2 Das klassische PPO-Verfahren;662
12.5.5.3;21.5.3 Das PPO-Verfahren mit Netz-Destillation;663
12.5.5.4;21.5.4 Das PPO-Verfahren mit verrauschten Netzen;664
12.5.6;21.6 Zusammenfassung;665
12.5.7;21.7 Quellenangaben;665
12.6;Kapitel 22: Jenseits modellfreier Verfahren – Imagination;667
12.6.1;22.1 Modellbasierte Verfahren;667
12.6.1.1;22.1.1 Modellbasierte und modellfreie Verfahren;667
12.6.2;22.2 Unzulänglichkeiten der Modelle;668
12.6.3;22.3 Imagination-augmented Agent;670
12.6.3.1;22.3.1 Das Umgebungsmodell;671
12.6.3.2;22.3.2 Die Rollout-Policy;672
12.6.3.3;22.3.3 Der Rollout-Encoder;672
12.6.3.4;22.3.4 Ergebnisse der Arbeit;672
12.6.4;22.4 I2A mit dem Atari-Spiel Breakout;672
12.6.4.1;22.4.1 Der Standard-A2C-Agent;673
12.6.4.2;22.4.2 Training des Umgebungsmodells;674
12.6.4.3;22.4.3 Der Imagination-Agent;677
12.6.5;22.5 Ergebnisse der Experimente;683
12.6.5.1;22.5.1 Der Basis-Agent;683
12.6.5.2;22.5.2 Training der EM-Gewichte;685
12.6.5.3;22.5.3 Training mit dem I2A-Modell;687
12.6.6;22.6 Zusammenfassung;690
12.6.7;22.7 Quellenangaben;690
12.7;Kapitel 23: AlphaGo Zero;691
12.7.1;23.1 Brettspiele;691
12.7.2;23.2 Das AlphaGo-Zero-Verfahren;692
12.7.2.1;23.2.1 Überblick;692
12.7.2.2;23.2.2 Monte-Carlo-Baumsuche;693
12.7.2.3;23.2.3 Self-Playing;695
12.7.2.4;23.2.4 Training und Bewertung;696
12.7.3;23.3 Vier-gewinnt-Bot;696
12.7.3.1;23.3.1 Spielmodell;697
12.7.3.2;23.3.2 Implementierung der Monte-Carlo-Baumsuche;699
12.7.3.3;23.3.3 Modell;704
12.7.3.4;23.3.4 Training;707
12.7.3.5;23.3.5 Test und Vergleich;707
12.7.4;23.4 Vier gewinnt: Ergebnisse;708
12.7.5;23.5 Zusammenfassung;710
12.7.6;23.6 Quellenangaben;710
12.8;Kapitel 24: RL und diskrete Optimierung;711
12.8.1;24.1 Die Reputation von Reinforcement Learnings;711
12.8.2;24.2 Zauberwürfel und kombinatorische Optimierung;712
12.8.3;24.3 Optimalität und Gottes Zahl;713
12.8.4;24.4 Ansätze zur Lösung;714
12.8.4.1;24.4.1 Datenrepräsentation;714
12.8.4.2;24.4.2 Aktionen;714
12.8.4.3;24.4.3 Zustände;715
12.8.5;24.5 Trainingsvorgang;719
12.8.5.1;24.5.1 Architektur des neuronalen Netzes;719
12.8.5.2;24.5.2 Training;720
12.8.6;24.6 Anwendung des Modells;721
12.8.7;24.7 Ergebnisse der Arbeit;723
12.8.8;24.8 Code;724
12.8.8.1;24.8.1 Würfel-Umgebungen;725
12.8.8.2;24.8.2 Training;729
12.8.8.3;24.8.3 Suchvorgang;731
12.8.9;24.9 Ergebnisse des Experiments;731
12.8.9.1;24.9.1 Der 2x2-Würfel;733
12.8.9.2;24.9.2 Der 3x3-Würfel;735
12.8.9.3;24.9.3 Weitere Verbesserungen und Experimente;736
12.8.10;24.10 Zusammenfassung;737
12.9;Kapitel 25: RL mit mehreren Agenten;739
12.9.1;25.1 Mehrere Agenten;739
12.9.1.1;25.1.1 Kommunikationsformen;740
12.9.1.2;25.1.2 Der RL-Ansatz;740
12.9.2;25.2 Die MAgent-Umgebung;740
12.9.2.1;25.2.1 Installation;741
12.9.2.2;25.2.2 Überblick;741
12.9.2.3;25.2.3 Eine zufällige Umgebung;741
12.9.3;25.3 Deep Q-Networks für Tiger;747
12.9.3.1;25.3.1 Training und Ergebnisse;750
12.9.4;25.4 Zusammenarbeit der Tiger;752
12.9.5;25.5 Training der Tiger und Hirsche;756
12.9.6;25.6 Der Kampf ebenbürtiger Akteure;757
12.9.7;25.7 Zusammenfassung;758
13;Stichwortverzeichnis;759


Maxim Lapan ist Deep-Learning-Enthusiast und unabhängiger Forscher. Er hat langjährige Berufserfahrung mit Big Data und Machine Learning und beschäftigt sich derzeit insbesondere mit praktischen Anwendungen des Deep Learnings wie NLP und Deep Reinforcement Learning.



Ihre Fragen, Wünsche oder Anmerkungen
Vorname*
Nachname*
Ihre E-Mail-Adresse*
Kundennr.
Ihre Nachricht*
Lediglich mit * gekennzeichnete Felder sind Pflichtfelder.
Wenn Sie die im Kontaktformular eingegebenen Daten durch Klick auf den nachfolgenden Button übersenden, erklären Sie sich damit einverstanden, dass wir Ihr Angaben für die Beantwortung Ihrer Anfrage verwenden. Selbstverständlich werden Ihre Daten vertraulich behandelt und nicht an Dritte weitergegeben. Sie können der Verwendung Ihrer Daten jederzeit widersprechen. Das Datenhandling bei Sack Fachmedien erklären wir Ihnen in unserer Datenschutzerklärung.