Burkov | Language Models kompakt | E-Book | www2.sack.de
E-Book

E-Book, Deutsch, 197 Seiten

Burkov Language Models kompakt

Praxisorientierte Sprachmodellierung mit PyTorch
1. Auflage 2025
ISBN: 978-3-96010-941-9
Verlag: O'Reilly
Format: EPUB
Kopierschutz: 6 - ePub Watermark

Praxisorientierte Sprachmodellierung mit PyTorch

E-Book, Deutsch, 197 Seiten

ISBN: 978-3-96010-941-9
Verlag: O'Reilly
Format: EPUB
Kopierschutz: 6 - ePub Watermark



Der schnellste Weg, um die Mechanismen von LLMs zu verstehen - Dieses Buch ist eine sehr komprimierte und gleichzeitig gut verständliche Einführung in die Entwicklung von Large Language Models - Ideal für alle, die sich schnell und fundiert in die Grundlagen von LLMs einarbeiten wollen - Vom Bestseller-Autor Andriy Burkov, der in seiner renommierten »Hundred-Page«-Reihe zu Machine-Learning-Themen Konzepte besonders klar und knapp erklärt   Sie möchten in die Welt der Large Language Models eintauchen? Dieses handliche Buch hilft Ihnen, das nötige Grundlagenwissen aufzubauen, um das Innenleben von LLMs zu verstehen und erste praktische Erfahrungen zu sammeln. Es führt Schritt für Schritt in die Sprachmodellierung ein, beginnend mit Machine Learning und neuronalen Netzen über RNNs und Transformern bis zu aktuellen LLM-Architekturen.  Bestseller-Autor Andriy Burkov - bekannt für seine »Hundred-Page«-Reihe zu Machine-Learning-Themen - macht die komplexen Ideen leicht zugänglich, indem er gut verständliche Erklärungen der Mathematik, zahlreiche Illustrationen und den Python-Code ausgewogen einsetzt. Auf der Website zum Buch finden Sie direkt ausführbare Codeschnipsel und PyTorch-Implementierungen in Jupyter Notebooks, die die Konzepte perfekt veranschaulichen. Das Buch unterstützt Sie dabei: - die mathematischen Grundlagen des Machine Learnings und der neuronalen Netze zu verstehen und zu beherrschen - drei Architekturen von Language Models in Python zu erstellen und zu trainieren - ein Transformer-Sprachmodell von Grund auf in PyTorch zu programmieren - mit LLMs zu arbeiten und effektive Prompt-Engineering- und Feinetuning-Techniken kennenzulernen - Halluzinationen zu vermeiden und Modelle zu bewerten

Andriy Burkov hat einen Doktortitel in Künstlicher Intelligenz und ist ein anerkannter Experte für Machine Learning und Natural Language Processing. Bei Fujitsu und Gartner hat er zahlreiche produktionsreife KI-Projekte in verschiedenen Geschäftsbereichen erfolgreich geleitet. Seine Bücher wurden in zwölf Sprachen übersetzt und werden als Lehrbücher an vielen Universitäten weltweit verwendet. Seine Arbeit hat Millionen von Praktikern und Forschern im Bereich Machine Learning weltweit beeinflusst.
Burkov Language Models kompakt jetzt bestellen!

Weitere Infos & Material


Kapitel 1 Grundlagen des Machine Learning


Dieses Kapitel beginnt mit einem kurzen Überblick darüber, wie sich künstliche Intelligenz entwickelt hat, erklärt, was ein Machine-Learning-Modell ist, und stellt die vier Schritte des Machine-Learning-Prozesses vor. Anschließend erläutert es einige mathematische Grundkonzepte wie Vektoren und Matrizen, führt neuronale Netze ein und behandelt schließlich Optimierungsmethoden wie Gradientenabstieg und automatische Differenzierung.

KI und Machine Learning


Der Begriff der künstlichen Intelligenz (KI; engl. Artificial Intelligence, AI) wurde erstmals 1955 auf einem Workshop unter der Leitung von John McCarthy eingeführt, der sich mit der Frage beschäftigte, wie Maschinen per Sprache Konzepte bilden, Probleme in der Art und Weise eines Menschen lösen und sich im Laufe der Zeit verbessern könnten. Auf diesen Ideen aufbauend, entwickelte Joseph Weizenbaum 1966 mit ELIZA den ersten Chatbot. Das Programm ELIZA simulierte Unterhaltungen, indem es Muster in den Benutzereingaben erkannte und mit vorprogrammierten Antworten reagierte, die den Eindruck erweckten, dass ELIZA die Fragen versteht.

In den Anfangsjahren der KI waren die Forscher zu optimistisch, was das Erreichen von Intelligenz auf menschlichem Niveau anging. Herbert Simon, Träger des Turing-Preises, sagte 1965 voraus, dass »Maschinen innerhalb von 20 Jahren in der Lage sein werden, jegliche Arbeiten zu verrichten, die ein Mensch erledigen kann«. Allerdings stellten sich die Fortschritte langsamer als erwartet ein, was zu Perioden mit geringerer Finanzierung und geringerem Interesse führte, die als »KI-Winter« bekannt sind.

Interessanterweise haben die Experten seit den 1950er-Jahren durchgängig vorausgesagt, dass KI auf menschlichem Niveau in etwa 25 Jahren erreicht sein wird, wie Abbildung 1.1 veranschaulicht.

Abbildung 1.1: Vorhersage und Erreichen von KI auf menschlichem Niveau

Zwischen 1975 und 1980 sowie erneut zwischen 1987 und 2000 durchliefen wir zwei »Winter«, in denen der Enthusiasmus und die Finanzierung der KI zurückgingen. Die Forschungsergebnisse entsprachen nicht den großen Hoffnungen, die durch die ersten Erfolge geweckt worden waren, sodass Investoren und politische Entscheidungsträger das Vertrauen verloren. Viele Projekte wurden gestoppt oder gebremst, was zu einem erheblichen Rückgang der KI-Forschung und -Entwicklung in Wissenschaft und Industrie führte.

Während des ersten KI-Winters war sogar der Begriff »KI« ein Tabu geworden. Viele Forscher ordneten ihre Arbeiten Kategorien wie »Informatik«, »wissensbasierte Systeme« oder »Mustererkennung« zu, um eine Assoziation mit den vermeintlichen Fehlern der KI zu vermeiden.

Die Begeisterung für KI ist seit den frühen 1990er-Jahren stetig gewachsen. Um 2012 wuchs das Interesse insbesondere an Machine Learning, angetrieben von Fortschritten bei der Rechenleistung, dem Zugang zu großen Datensätzen und Verbesserungen bei Algorithmen und Frameworks für neuronale Netze. Diese Entwicklungen führten zu einem Anstieg der Finanzmittel und einem bedeutenden KI-Boom.

Obwohl sich der Schwerpunkt der Forschung im Bereich der künstlichen Intelligenz verlagert hat, bleibt das Kernziel dasselbe: Methoden zu entwickeln, durch die Maschinen Probleme lösen können, die bisher nur von Menschen gelöst werden konnten. In diesem Sinne wird der Begriff in diesem Buch verwendet.

Den Begriff Machine Learning hat Arthur Samuel 1959 eingeführt. In seinem Paper »Some Studies in Machine Learning Using the Game of Checkers« hat er ihn als »Programmieren von Computern, um aus Erfahrung zu lernen« beschrieben.

Die frühen KI-Forscher konzentrierten sich in erster Linie auf symbolische Methoden und regelbasierte Systeme – ein Ansatz, der später als gute altmodische KI (Good Old-Fashioned AI, GOFAI) – betitelt wurde –, doch im Laufe der Zeit wandte sich das Gebiet zunehmend dem Machine Learning zu, wobei sich neuronale Netze (Neural Networks) als besonders leistungsfähige Technik herausstellten.

Die von Forschungen am Gehirn inspirierten neuronalen Netze zielen darauf ab, Muster direkt aus Beispielen zu lernen. Frank Rosenblatt stellte 1958 mit dem Perzeptron ein wegweisendes Modell und einen entsprechenden Algorithmus vor, um es zu trainieren. Es war ein entscheidender Schritt in Richtung späterer Fortschritte. Das Perzeptron definiert eine Entscheidungsgrenze, eine Linie, die Vertreter zweier Klassen (zum Beispiel »Spam« und »kein Spam«) voneinander trennt (siehe Abbildung 1.2).

Abbildung 1.2: Trennen zweier Klassen mithilfe eines Perzeptrons

Entscheidungsbäume und Random Forests stellen wichtige Evolutionsschritte im Machine Learning dar. Die 1963 von John Sonquist und James Morgan eingeführten und später durch den ID3-Algorithmus von Ross Quinlan im Jahr 1986 weiterentwickelten Decision Trees (Entscheidungsbäume) teilen die Daten durch eine baumartige Struktur in Teilmengen auf. Jeder Knoten verkörpert eine Frage über die Daten, jeder Zweig ist eine Antwort, und jedes Blatt liefert eine Vorhersage. Diese Modelle sind zwar leicht zu verstehen, dennoch haben sie mit Überanpassung (Overfitting) zu kämpfen, d.h., sie passen sich zu stark an die Trainingsdaten an, was ihre Vorhersageleistung bei bisher nicht gesehenen Daten verringert.

Um dieser Einschränkung zu begegnen, hat Leo Breiman 2001 den Random-Forest-Algorithmus eingeführt. Ein Random Forest (deutsch Zufallswald) erstellt mehrere Decision Trees aus zufälligen Teilmengen der Daten und kombiniert deren Ergebnisse. Dieser Ansatz verbessert die Vorhersagegenauigkeit und verringert die Überanpassung. Aufgrund ihrer Zuverlässigkeit und Performance werden Random Forests nach wie vor häufig eingesetzt.

Support Vector Machines (SVMs), die Vladimir Vapnik und seine Kollegen 1992 einführten, sind ein weiterer Schritt nach vorn. SVMs ermitteln die optimale Hyperebene, die Datenpunkte verschiedener Klassen mit dem größten Abstand voneinander trennt. Die Einführung von Kernel-Methoden hat es SVMs ermöglicht, komplexe, nicht lineare Muster zu erkennen, indem sie Daten in höherdimensionale Räume abbilden, was die Suche nach einer geeigneten Trennungshyperebene erleichtert. Diese Fortschritte haben SVMs zu einem zentralen Bestandteil der Forschung im Bereich des Machine Learning gemacht.

Heute ist Machine Learning ein Teilbereich der künstlichen Intelligenz, der sich mit der Entwicklung von Algorithmen beschäftigt, die aus Sammlungen von Beispielen lernen. Diese Beispiele können aus der Natur stammen, von Menschen entworfen sein oder durch andere Algorithmen erzeugt werden. Alles in allem geht es dabei darum, einen Datensatz zu erfassen, dafür ein Modell zu erstellen und es dann zu verwenden, um ein Problem zu lösen.

Die Begriffe Lernen, maschinelles Lernen und Machine Learning werden hier synonym verwendet.

Modelle


Ein Modell wird normalerweise durch eine mathematische Gleichung dargestellt:

y = f(x)

Hier ist x die Eingabe, y die Ausgabe, und f steht für eine Funktion von x. Eine Funktion ist eine benannte Regel, die beschreibt, wie eine Menge von Werten mit einer anderen in Beziehung steht. Formal bildet eine Funktion f die Eingaben aus der Domäne auf Ausgaben in der Codomäne ab, wobei sichergestellt ist, dass jeder Eingabe genau eine Ausgabe zugeordnet ist. Die Funktion verwendet eine spezifische Regel oder Formel, um die Eingabe in die Ausgabe zu transformieren.

Im Machine Learning besteht das Ziel darin, einen Datensatz mit Beispielen anzulegen und daraus f zu erstellen, sodass bei Anwendung von f auf eine neue, noch nicht gesehene Eingabe x ein y erzeugt wird, das aussagekräftige Erkenntnisse über x liefert.

Um den Preis eines Hauses anhand seiner Fläche zu schätzen, könnte der Datensatz aus (Fläche, Preis)-Paaren wie {(150,200), (200,600), …} bestehen. Hier wird die Fläche in Quadratmetern (m2 gemessen und der Preis in Tausenden Dollar angegeben.

Geschweifte Klammern kennzeichnen eine Menge. Eine Menge mit N Elementen, die von x1 bis xN reichen, wird als { xi }i=1N ausgedrückt.

Angenommen, wir besitzen ein Haus mit einer Fläche von 250 m2. Um eine Funktion f zu finden, die einen angemessenen Preis für dieses Haus liefert, wäre es unzumutbar, jede mögliche Funktion zu testen. Stattdessen wählen wir eine bestimmte Struktur für f und konzentrieren uns auf Funktionen, die dieser Struktur entsprechen.

Für f definieren wir eine Struktur als:

f(x)=defwx+b (1.1)

die eine lineare Funktion von x ist. Die Formel wx + b ist eine lineare...


Andriy Burkov hat einen Doktortitel in Künstlicher Intelligenz und ist ein anerkannter Experte für Machine Learning und Natural Language Processing. Bei Fujitsu und Gartner hat er zahlreiche produktionsreife KI-Projekte in verschiedenen Geschäftsbereichen erfolgreich geleitet. Seine Bücher wurden in zwölf Sprachen übersetzt und werden als Lehrbücher an vielen Universitäten weltweit verwendet. Seine Arbeit hat Millionen von Praktikern und Forschern im Bereich Machine Learning weltweit beeinflusst.



Ihre Fragen, Wünsche oder Anmerkungen
Vorname*
Nachname*
Ihre E-Mail-Adresse*
Kundennr.
Ihre Nachricht*
Lediglich mit * gekennzeichnete Felder sind Pflichtfelder.
Wenn Sie die im Kontaktformular eingegebenen Daten durch Klick auf den nachfolgenden Button übersenden, erklären Sie sich damit einverstanden, dass wir Ihr Angaben für die Beantwortung Ihrer Anfrage verwenden. Selbstverständlich werden Ihre Daten vertraulich behandelt und nicht an Dritte weitergegeben. Sie können der Verwendung Ihrer Daten jederzeit widersprechen. Das Datenhandling bei Sack Fachmedien erklären wir Ihnen in unserer Datenschutzerklärung.