E-Book

E-Book, Deutsch, 592 Seiten

Wickham / Çetinkaya-Rundel / Grolemund R für Data Science

Daten importieren, bereinigen, umformen und visualisieren
aktualisierte und erweiterte Auflage
ISBN: 978-3-96010-834-4
Verlag: dpunkt.verlag
Format: EPUB
Kopierschutz: 6 - ePub Watermark

Häufig gestellte Fragen zu E-Books

E-Book, Deutsch, 592 Seiten

Reihe: Animals

R für Data Science
2. aktualisierte und erweiterte Auflage 2024, 978-3-96009-234-6, Buch

Daten importieren, bereinigen, umformen und visualisieren

E-Book, Deutsch, 592 Seiten

Reihe: Animals

ISBN: 978-3-96010-834-4
Verlag: dpunkt.verlag
Format: EPUB
Kopierschutz: 6 - ePub Watermark

Häufig gestellte Fragen zu E-Books

54,90 €

(inkl. MwSt.)

versandkostenfreie Lieferung
sofort verfügbar

Mit R Daten analysieren - die anschauliche und verständliche Einführung - 2. Auflage des US-Bestellers, jetzt vollständig aktualisiert und erweitert - Hadley Wickham ist eine Legende auf dem Gebiet der Data Science: Er hat eine vollkommen neue, bahnbrechende Methode der Datenanalyse mit R entwickelt - Wickhams innovative Herangehensweise wird in diesem Buch beschrieben, es ist ein Standardwerk für Datenanalysten Erfahren Sie, wie Sie mit R aus Ihren Daten Erkenntnisse und Einsichten gewinnen. Dieses Buch führt Sie in R und RStudio ein sowie in Tidyverse, eine Sammlung von R-Paketen, mit denen Data-Science-Aufgaben effektiv und zeitsparend erledigt werden können. Auch wenn Sie keine Programmiererfahrung haben, können Sie mit diesem aktualisierten Standardwerk schnell in die Praxis der Data Science einsteigen. Sie lernen, Daten zu importieren, aufzubereiten, zu visualisieren und die Ergebnisse zu präsentieren. Darüber hinaus bekommen Sie einen umfassenden Überblick über den Data-Science-Zyklus und die Tools, die für die Detailarbeit erforderlich sind. Die zweite Auflage behandelt die neuesten Funktionen und Best Practices von Tidyverse und zeigt Ihnen in neu hinzugekommenen Kapiteln, wie Sie Daten aus Spreadsheets, Datenbanken und Websites nutzen. Zahlreiche Übungen unterstützen Sie dabei, das Gelernte praktisch auszuprobieren. Themen des Buchs sind: - Visualisieren - Erstellen Sie Diagramme für die Datenauswertung und die Kommunikation von Ergebnissen - Transformieren - Erkunden Sie Variablentypen und die Werkzeuge, um mit ihnen zu arbeiten - Importieren - Lesen Sie Daten in R ein und bringen Sie sie in eine für die Analyse geeignete Form - Programmieren - Lernen Sie leistungsfähige R-Tools kennen, mit denen Sie Datenprobleme leichter lösen können - Kommunizieren - Verwenden Sie Quarto, um Text, Code und Ergebnisse kombiniert darzustellen

Hadley Wickham ist Chief Scientist bei Posit und Mitglied der R Foundation. Er erstellt sowohl technische als auch kognitive Tools, die Data Science leichter, schneller und unterhaltsamer machen. Mine Çetinkaya-Rundel ist Professor of the Practice am Department of Statistical Science an der Duke University in Durham, North Carolina. Außerdem ist sie Developer Educator bei Posit.Garrett Grolemund ist Statistiker, Lehrer und Director of Learning bei der Posit Academy. Er ist Autor von Hands-On Programming with R (O'Reilly) und hat schon früh zu Tidyverse beigetragen.

Wickham / Çetinkaya-Rundel / Grolemund R für Data Science jetzt bestellen!

Autoren/Hrsg.

Wickham, Hadley

Çetinkaya-Rundel, Mine

Grolemund, Garrett

Weitere Mitwirkende

Langenau, Frank

Fachgebiete

Weitere Infos & Material

Leseproben

Einführung

Data Science ist eine spannende Disziplin, in der Sie Rohdaten in Verständnis, Erkenntnis und Wissen umwandeln können. Das Buch soll Ihnen die wichtigsten Tools in R nahebringen, damit Sie Aufgaben in Data Science effizient und reproduzierbar bearbeiten können, noch dazu in unterhaltsamer Weise! Nachdem Sie dieses Buch gelesen haben, verfügen Sie über das Handwerkszeug, um ein breites Spektrum anspruchsvoller Data-Science-Problemstellungen mithilfe der besten Bestandteile von R anzugehen.

Vorwort zur zweiten Auflage

Willkommen zur zweiten Auflage von (R4DS), die sich durch eine umfassende Überarbeitung der ersten Auflage auszeichnet. Wir haben Material entfernt, das wir nicht mehr für nützlich halten, Material hinzugefügt, das wir gern schon in die erste Auflage aufgenommen hätten, und generell den Text und den Code aktualisiert, um Änderungen bei den Best Practices zu berücksichtigen. Zudem freuen wir uns sehr, Mine Çetinkaya-Rundel als neue Co-Autorin gewonnen zu haben. Sie ist eine bekannte Lehrerin für Data Science und eine unserer Kolleginnen bei Posit (dem Unternehmen, das früher als RStudio bekannt war).

Die folgenden Punkte fassen kurz die wichtigsten Änderungen zusammen:

Der erste Teil des Buchs hat den neuen Titel »Gesamtbild« bekommen. Dieser Abschnitt soll Ihnen zeigen, worum es bei Data Science im Großen und Ganzen geht, bevor wir uns näher mit den Details beschäftigen.
Der zweite Teil des Buchs ist mit »Visualisieren« überschrieben. Dieser Teil beschreibt Visualisierungstools und Best Practices ausführlicher und detaillierter, als es in der ersten Auflage geschehen ist. Um alle Details kennenzulernen, empfiehlt sich immer noch das Buch (Springer 2016, ), wobei aber das Ihnen hier vorliegende Buch schon mehr als die wichtigsten Techniken abhandelt.
Der dritte Teil des Buchs heißt nun »Transformieren« mit neuen Kapiteln über Zahlen, logische Vektoren und fehlende Werte. Bislang waren diese Themen im Kapitel über Datentransformationen angesiedelt, nun aber wird mehr Platz benötigt, um alle relevanten Details zu behandeln.
Im vierten Teil des Buchs geht es um das »Importieren«. Hier finden Sie eine Reihe von neuen Kapiteln, die über das Lesen von einfachen Textdateien hinausgehen und sich damit befassen, wie Sie mit Tabellenkalkulationen arbeiten, Daten aus Datenbanken abrufen, mit Big Data umgehen, hierarchische Daten in Rechteckform bringen und Daten aus Websites übernehmen.
Der Teil »Programmieren« wurde beibehalten, aber von Anfang bis Ende umgeschrieben, um sich auf die wichtigsten Teile zu konzentrieren, die für Funktionen und Iteration relevant sind. In Bezug auf Funktionen lernen Sie nun, wie Sie Tidyverse-Funktionen (die sich mit den Herausforderungen einer bereinigten Auswertung befassen) einhüllen, da dies in den letzten Jahren viel einfacher und wichtiger geworden ist. Neu hinzugekommen ist ein Kapitel über wichtige R-Basisfunktionen, die Sie wahrscheinlich in praxisnahem R-Code vorfinden werden.
Der Teil »Modellieren« ist weggefallen. Der Platz hat nie gereicht, um das Thema Modellieren adäquat darzustellen. Zudem gibt es jetzt viel bessere Ressourcen. Generell empfehlen wir, die tidymodels-Pakete () zu verwenden und () von Max Kuhn und Julia Silge (O’Reilly) zu lesen.
Der Teil »Kommunizieren« besteht weiter, wurde aber gründlich aktualisiert, um () anstelle von vorzustellen. Diese Auflage des Buchs ist in Quarto geschrieben worden, das zweifellos das Tool der Zukunft ist.

Was Sie lernen werden

Data Science ist ein riesiges Gebiet, und Sie werden es wahrscheinlich nicht meistern, wenn Sie nur ein einziges Buch lesen. Dieses Buch soll Ihnen eine solide Basis für die wichtigsten Tools vermitteln und Ihnen Quellen zeigen, um bei Bedarf mehr zu lernen. Unser Modell der Schritte in einem typischen Data-Science-Projekt sieht in etwa wie in Abbildung E-1 aus.

Zuerst müssen Sie Ihre Daten in R . In der Regel heißt dies, dass Sie gespeicherte Daten aus einer Datei, Datenbank oder Web-API übernehmen und in einen Dataframe in R laden. Können Sie Ihre Daten nicht nach R übernehmen, lässt sich keine Data Science damit anstellen!

Nachdem Sie die Daten importiert haben, empfiehlt es sich, sie zu oder . Dabei speichert man die Daten in einer konsistenten Form, die die Semantik des Datensets mit der Art und Weise der Speicherung abstimmt. Kurz gesagt, wenn Ihre Daten bereinigt sind, ist jede Spalte eine Variable und jede Zeile eine Beobachtung. Das Bereinigen von Daten ist wichtig, weil Sie sich dann aufgrund der konsistenten Struktur auf Fragen über die Daten konzentrieren können und sich nicht damit abmühen müssen, die Daten für verschiedene Funktionen in die richtige Form zu bekommen.

Wenn die Daten bereinigt sind, werden sie oftmals in einem nächsten Schritt . Das Transformieren schließt das Eingrenzen auf konkrete Beobachtungen ein (wie zum Beispiel alle Personen in einer Stadt oder alle Daten aus dem letzten Jahr), das Erstellen neuer Variablen, die Funktionen von vorhandenen Variablen sind (wie das Berechnen der Geschwindigkeit aus Weg und Zeit), und das Berechnen einer Menge von Zusammenfassungsstatistiken (wie Anzahlen oder Mittelwerte). Bereinigen und Transformieren bezeichnet man zusammengenommen als – im Englischen (Rangelei, Gezerre) genannt, weil es sich oft wie ein Kampf anfühlt, die Daten in eine Form zu bringen, mit der man gut arbeiten kann!

Nachdem Sie über bereinigte Daten mit den benötigten Variablen verfügen, gibt es zwei Hauptmodule der Wissensgenerierung: Visualisierung und Modellierung. Diese weisen viele Stärken und Schwächen auf, die komplementär zueinander sind, sodass jede reale Analyse diese Schritte mehrfach durchlaufen wird.

ist eine fundamentale menschliche Aktivität. Eine gute Visualisierung zeigt Ihnen Dinge, die Sie nicht erwartet haben, oder wirft neue Fragen über die Daten auf. Außerdem kann eine gute Visualisierung darauf hinweisen, dass Sie die falschen Fragen stellen oder andersartige Daten erfassen müssen. Visualisierungen können Sie überraschen, lassen sich aber nicht besonders gut normieren, weil ein Mensch sie interpretieren muss.

ergänzen die Visualisierung. Haben Sie Ihre Fragen einmal ausreichend präzisiert, können Sie sie mithilfe eines Modells beantworten. Modelle sind ein fundamentales mathematisches oder rechentechnisches Werkzeug, sodass sie sich im Allgemeinen gut skalieren lassen. Und selbst wenn das nicht zutrifft, ist es normalerweise billiger, mehr Computer zu kaufen als mehr Gehirne! Doch jedes Modell geht von Annahmen aus, und seinem Wesen nach kann ein Modell seine eigenen Annahmen nicht beantworten. Ein Modell kann Sie also grundsätzlich nicht überraschen.

Der letzte Schritt bei der Data Science ist die , ein absolut entscheidender Teil jedes Datenanalyseprojekts. Es spielt keine Rolle, wie gut Ihre Modelle und die Visualisierung Sie dazu gebracht haben, die Daten zu verstehen, sofern Sie nicht auch Ihre Ergebnisse für andere kommunizieren können.

Den Rahmen für alle diese Tools bildet die . Als übergreifendes Tool haben Sie mit Programmierung in jedem Teil des Projekts zu tun. Dabei müssen Sie keine Programmierexpertinnen und -experten sein, um als Data Scientists erfolgreich zu arbeiten, doch wenn Sie mehr über Programmierung lernen, zahlt sich das aus, denn als besserer Programmierer können Sie häufig anfallende Aufgaben automatisieren und neue Probleme wesentlich leichter lösen.

Diese Tools verwenden Sie in fast jedem Data-Science-Projekt, doch für die meisten Projekte sind sie nicht ausreichend. Als Faustregel gilt ein 80-20-Verhältnis: Etwa 80 % jedes Projekts können Sie angehen mit den Tools, die Sie in diesem Buch kennenlernen, doch um die restlichen 20 % zu lösen, brauchen Sie weitere Tools. Das ganze Buch hindurch verweisen wir auf Quellen, unter denen Sie mehr zu den jeweiligen Themen lernen können.

Wie dieses Buch organisiert ist

Der letzte Abschnitt hat die Data-Science-Tools ungefähr in der Reihenfolge beschrieben, in der Sie sie in einer Analyse einsetzen (auch...

Über Autor(innen)

Hadley Wickham ist Chief Scientist bei Posit und Mitglied der R Foundation. Er erstellt sowohl technische als auch kognitive Tools, die Data Science leichter, schneller und unterhaltsamer machen. Mine Çetinkaya-Rundel ist Professor of the Practice am Department of Statistical Science an der Duke University in Durham, North Carolina. Außerdem ist sie Developer Educator bei Posit.Garrett Grolemund ist Statistiker, Lehrer und Director of Learning bei der Posit Academy. Er ist Autor von Hands-On Programming with R (O'Reilly) und hat schon früh zu Tidyverse beigetragen.

Produktsicherheit

Fragen zum Artikel?

Ihre Fragen, Wünsche oder Anmerkungen

Vorname*

Nachname*

Ihre E-Mail-Adresse*

Kundennr.

Ihre Nachricht*

Lediglich mit * gekennzeichnete Felder sind Pflichtfelder.

Wenn Sie die im Kontaktformular eingegebenen Daten durch Klick auf den nachfolgenden Button übersenden, erklären Sie sich damit einverstanden, dass wir Ihr Angaben für die Beantwortung Ihrer Anfrage verwenden. Selbstverständlich werden Ihre Daten vertraulich behandelt und nicht an Dritte weitergegeben. Sie können der Verwendung Ihrer Daten jederzeit widersprechen. Das Datenhandling bei Sack Fachmedien erklären wir Ihnen in unserer Datenschutzerklärung.

54,90 € (inkl. MwSt.)

sofort verfügbar

Webcode: www2.sack.de/ppt5t