E-Book, Deutsch, 592 Seiten
Reihe: Animals
Wickham / Çetinkaya-Rundel / Grolemund R für Data Science
aktualisierte und erweiterte Auflage
ISBN: 978-3-96010-834-4
Verlag: dpunkt.verlag
Format: EPUB
Kopierschutz: 6 - ePub Watermark
Daten importieren, bereinigen, umformen und visualisieren
E-Book, Deutsch, 592 Seiten
Reihe: Animals
ISBN: 978-3-96010-834-4
Verlag: dpunkt.verlag
Format: EPUB
Kopierschutz: 6 - ePub Watermark
Hadley Wickham ist Chief Scientist bei Posit und Mitglied der R Foundation. Er erstellt sowohl technische als auch kognitive Tools, die Data Science leichter, schneller und unterhaltsamer machen. Mine Çetinkaya-Rundel ist Professor of the Practice am Department of Statistical Science an der Duke University in Durham, North Carolina. Außerdem ist sie Developer Educator bei Posit.Garrett Grolemund ist Statistiker, Lehrer und Director of Learning bei der Posit Academy. Er ist Autor von Hands-On Programming with R (O'Reilly) und hat schon früh zu Tidyverse beigetragen.
Fachgebiete
Weitere Infos & Material
Einführung
Data Science ist eine spannende Disziplin, in der Sie Rohdaten in Verständnis, Erkenntnis und Wissen umwandeln können. Das Buch soll Ihnen die wichtigsten Tools in R nahebringen, damit Sie Aufgaben in Data Science effizient und reproduzierbar bearbeiten können, noch dazu in unterhaltsamer Weise! Nachdem Sie dieses Buch gelesen haben, verfügen Sie über das Handwerkszeug, um ein breites Spektrum anspruchsvoller Data-Science-Problemstellungen mithilfe der besten Bestandteile von R anzugehen.
Vorwort zur zweiten Auflage
Willkommen zur zweiten Auflage von (R4DS), die sich durch eine umfassende Überarbeitung der ersten Auflage auszeichnet. Wir haben Material entfernt, das wir nicht mehr für nützlich halten, Material hinzugefügt, das wir gern schon in die erste Auflage aufgenommen hätten, und generell den Text und den Code aktualisiert, um Änderungen bei den Best Practices zu berücksichtigen. Zudem freuen wir uns sehr, Mine Çetinkaya-Rundel als neue Co-Autorin gewonnen zu haben. Sie ist eine bekannte Lehrerin für Data Science und eine unserer Kolleginnen bei Posit (dem Unternehmen, das früher als RStudio bekannt war).
Die folgenden Punkte fassen kurz die wichtigsten Änderungen zusammen:
- Der erste Teil des Buchs hat den neuen Titel »Gesamtbild« bekommen. Dieser Abschnitt soll Ihnen zeigen, worum es bei Data Science im Großen und Ganzen geht, bevor wir uns näher mit den Details beschäftigen.
- Der zweite Teil des Buchs ist mit »Visualisieren« überschrieben. Dieser Teil beschreibt Visualisierungstools und Best Practices ausführlicher und detaillierter, als es in der ersten Auflage geschehen ist. Um alle Details kennenzulernen, empfiehlt sich immer noch das Buch (Springer 2016, ), wobei aber das Ihnen hier vorliegende Buch schon mehr als die wichtigsten Techniken abhandelt.
- Der dritte Teil des Buchs heißt nun »Transformieren« mit neuen Kapiteln über Zahlen, logische Vektoren und fehlende Werte. Bislang waren diese Themen im Kapitel über Datentransformationen angesiedelt, nun aber wird mehr Platz benötigt, um alle relevanten Details zu behandeln.
- Im vierten Teil des Buchs geht es um das »Importieren«. Hier finden Sie eine Reihe von neuen Kapiteln, die über das Lesen von einfachen Textdateien hinausgehen und sich damit befassen, wie Sie mit Tabellenkalkulationen arbeiten, Daten aus Datenbanken abrufen, mit Big Data umgehen, hierarchische Daten in Rechteckform bringen und Daten aus Websites übernehmen.
- Der Teil »Programmieren« wurde beibehalten, aber von Anfang bis Ende umgeschrieben, um sich auf die wichtigsten Teile zu konzentrieren, die für Funktionen und Iteration relevant sind. In Bezug auf Funktionen lernen Sie nun, wie Sie Tidyverse-Funktionen (die sich mit den Herausforderungen einer bereinigten Auswertung befassen) einhüllen, da dies in den letzten Jahren viel einfacher und wichtiger geworden ist. Neu hinzugekommen ist ein Kapitel über wichtige R-Basisfunktionen, die Sie wahrscheinlich in praxisnahem R-Code vorfinden werden.
- Der Teil »Modellieren« ist weggefallen. Der Platz hat nie gereicht, um das Thema Modellieren adäquat darzustellen. Zudem gibt es jetzt viel bessere Ressourcen. Generell empfehlen wir, die tidymodels-Pakete () zu verwenden und () von Max Kuhn und Julia Silge (O’Reilly) zu lesen.
- Der Teil »Kommunizieren« besteht weiter, wurde aber gründlich aktualisiert, um () anstelle von vorzustellen. Diese Auflage des Buchs ist in Quarto geschrieben worden, das zweifellos das Tool der Zukunft ist.
Was Sie lernen werden
Data Science ist ein riesiges Gebiet, und Sie werden es wahrscheinlich nicht meistern, wenn Sie nur ein einziges Buch lesen. Dieses Buch soll Ihnen eine solide Basis für die wichtigsten Tools vermitteln und Ihnen Quellen zeigen, um bei Bedarf mehr zu lernen. Unser Modell der Schritte in einem typischen Data-Science-Projekt sieht in etwa wie in Abbildung E-1 aus.
Zuerst müssen Sie Ihre Daten in R . In der Regel heißt dies, dass Sie gespeicherte Daten aus einer Datei, Datenbank oder Web-API übernehmen und in einen Dataframe in R laden. Können Sie Ihre Daten nicht nach R übernehmen, lässt sich keine Data Science damit anstellen!
Nachdem Sie die Daten importiert haben, empfiehlt es sich, sie zu oder . Dabei speichert man die Daten in einer konsistenten Form, die die Semantik des Datensets mit der Art und Weise der Speicherung abstimmt. Kurz gesagt, wenn Ihre Daten bereinigt sind, ist jede Spalte eine Variable und jede Zeile eine Beobachtung. Das Bereinigen von Daten ist wichtig, weil Sie sich dann aufgrund der konsistenten Struktur auf Fragen über die Daten konzentrieren können und sich nicht damit abmühen müssen, die Daten für verschiedene Funktionen in die richtige Form zu bekommen.
.
Wenn die Daten bereinigt sind, werden sie oftmals in einem nächsten Schritt . Das Transformieren schließt das Eingrenzen auf konkrete Beobachtungen ein (wie zum Beispiel alle Personen in einer Stadt oder alle Daten aus dem letzten Jahr), das Erstellen neuer Variablen, die Funktionen von vorhandenen Variablen sind (wie das Berechnen der Geschwindigkeit aus Weg und Zeit), und das Berechnen einer Menge von Zusammenfassungsstatistiken (wie Anzahlen oder Mittelwerte). Bereinigen und Transformieren bezeichnet man zusammengenommen als – im Englischen (Rangelei, Gezerre) genannt, weil es sich oft wie ein Kampf anfühlt, die Daten in eine Form zu bringen, mit der man gut arbeiten kann!
Nachdem Sie über bereinigte Daten mit den benötigten Variablen verfügen, gibt es zwei Hauptmodule der Wissensgenerierung: Visualisierung und Modellierung. Diese weisen viele Stärken und Schwächen auf, die komplementär zueinander sind, sodass jede reale Analyse diese Schritte mehrfach durchlaufen wird.
ist eine fundamentale menschliche Aktivität. Eine gute Visualisierung zeigt Ihnen Dinge, die Sie nicht erwartet haben, oder wirft neue Fragen über die Daten auf. Außerdem kann eine gute Visualisierung darauf hinweisen, dass Sie die falschen Fragen stellen oder andersartige Daten erfassen müssen. Visualisierungen können Sie überraschen, lassen sich aber nicht besonders gut normieren, weil ein Mensch sie interpretieren muss.
ergänzen die Visualisierung. Haben Sie Ihre Fragen einmal ausreichend präzisiert, können Sie sie mithilfe eines Modells beantworten. Modelle sind ein fundamentales mathematisches oder rechentechnisches Werkzeug, sodass sie sich im Allgemeinen gut skalieren lassen. Und selbst wenn das nicht zutrifft, ist es normalerweise billiger, mehr Computer zu kaufen als mehr Gehirne! Doch jedes Modell geht von Annahmen aus, und seinem Wesen nach kann ein Modell seine eigenen Annahmen nicht beantworten. Ein Modell kann Sie also grundsätzlich nicht überraschen.
Der letzte Schritt bei der Data Science ist die , ein absolut entscheidender Teil jedes Datenanalyseprojekts. Es spielt keine Rolle, wie gut Ihre Modelle und die Visualisierung Sie dazu gebracht haben, die Daten zu verstehen, sofern Sie nicht auch Ihre Ergebnisse für andere kommunizieren können.
Den Rahmen für alle diese Tools bildet die . Als übergreifendes Tool haben Sie mit Programmierung in jedem Teil des Projekts zu tun. Dabei müssen Sie keine Programmierexpertinnen und -experten sein, um als Data Scientists erfolgreich zu arbeiten, doch wenn Sie mehr über Programmierung lernen, zahlt sich das aus, denn als besserer Programmierer können Sie häufig anfallende Aufgaben automatisieren und neue Probleme wesentlich leichter lösen.
Diese Tools verwenden Sie in fast jedem Data-Science-Projekt, doch für die meisten Projekte sind sie nicht ausreichend. Als Faustregel gilt ein 80-20-Verhältnis: Etwa 80 % jedes Projekts können Sie angehen mit den Tools, die Sie in diesem Buch kennenlernen, doch um die restlichen 20 % zu lösen, brauchen Sie weitere Tools. Das ganze Buch hindurch verweisen wir auf Quellen, unter denen Sie mehr zu den jeweiligen Themen lernen können.
Wie dieses Buch organisiert ist
Der letzte Abschnitt hat die Data-Science-Tools ungefähr in der Reihenfolge beschrieben, in der Sie sie in einer Analyse einsetzen (auch...