Serra | Datenarchitekturen | E-Book | sack.de
E-Book

E-Book, Deutsch, 317 Seiten

Reihe: Animals

Serra Datenarchitekturen

Modern Data Warehouse, Data Fabric, Data Lakehouse und Data Mesh richtig einsetzen
1. neue Auflage 2024
ISBN: 978-3-96010-875-7
Verlag: dpunkt.verlag
Format: EPUB
Kopierschutz: 6 - ePub Watermark

Modern Data Warehouse, Data Fabric, Data Lakehouse und Data Mesh richtig einsetzen

E-Book, Deutsch, 317 Seiten

Reihe: Animals

ISBN: 978-3-96010-875-7
Verlag: dpunkt.verlag
Format: EPUB
Kopierschutz: 6 - ePub Watermark



Gewinnen Sie Klarheit über verbreitete Datenarchitektur-Konzepte - Alle Konzepte im Überblick: Der erste Leitfaden für die verschiedenen Ansätze, der hilft, eine Architektur auszuwählen, die zu den eigenen Anforderungen passt - Beschreibt die populärsten Datenarchitekturen, zeigt Vor- und Nachteile und wie sich Theorie und Praxis unterscheiden - Inkl. zahlreicher Schaubilder und vergleichender Tabellen Data Fabric, Data Lakehouse und Data Mesh sind als praktikable Alternativen zum Modern Data Warehouse in den Fokus der Unternehmen gerückt. Diese neuen Architekturen haben solide Vorteile, aber ihre fachliche Einordnung ist auch von Missverständnissen und Übertreibungen geprägt. Dieses praxisorientierte Buch bietet eine gut verständliche Einführung in jeden dieser Architekturansätze und hilft damit Datenexpertinnen und -praktikern, die jeweiligen Vor- und Nachteile zu verstehen. James Serra erläutert die Konzepte gängiger Datenarchitekturen und zeigt dabei auch, wie sich Data Warehouses weiterentwickeln mussten, um mit Data-Lake-Funktionen arbeiten zu können. Sie erfahren, was Sie mit Data Lakehouses erreichen können und wie Sie Hype und Realität bei Data Meshs unterscheiden. Nach der Lektüre dieses Buchs werden Sie in der Lage sein, die für Ihre Zwecke am besten geeignete Datenarchitektur zu bestimmen. - Entwickeln Sie ein grundlegendes Verständnis für die verschiedenen Datenarchitekturen - Informieren Sie sich über die Stärken und Schwächen der einzelnen Ansätze - Verstehen Sie die Unterschiede zwischen Data Warehouses und Data Lakes - Profitieren Sie von der langjährigen Erfahrung von James Serra und erfahren Sie, wie Theorie und Praxis der jeweiligen Datenarchitekturen voneinander abweichen - Wählen Sie die beste Architektur für Ihren Anwendungsfall aus - Lernen Sie, wie man eine Architektur-Design-Sitzung durchführt, das Team organisiert und was die Erfolgsfaktoren für ein Projekt sind

James Serra arbeitet bei Microsoft als Architekt für Big-Data- und Data-Warehousing-Lösungen. Er hat sich zu einem Vordenker für die Nutzung und Anwendung von Big Data und Advanced Analytics entwickelt, einschließlich Datenarchitekturen wie Modern Data Warehouse, Data Lakehouse, Data Fabric und Data Mesh.
Serra Datenarchitekturen jetzt bestellen!

Weitere Infos & Material


KAPITEL 1


Big Data


Die Anzahl der Firmen, die Datenarchitekturen erstellen, ist in den 2020er-Jahren sprunghaft gestiegen. Es ist unwahrscheinlich, dass sich dieses Wachstum in absehbarer Zeit verlangsamt, vor allem weil mehr Daten als je zuvor zur Verfügung stehen: angefangen bei sozialen Medien über IoT-Geräte (Internet der Dinge) bis hin zu selbst entwickelten Anwendungen und Software von Drittanbietern, um nur einige Quellen zu nennen. Laut einer BCG-Studie aus dem Jahr 2023 () »hat sich der Umfang der generierten Daten von 2019 bis 2021 auf etwa 84 ZB ungefähr verdoppelt, wobei zu erwarten ist, dass es mit dieser Wachstumsrate weitergeht«. Die Forscher »schätzen, dass der Umfang der generierten Daten mit einer jährlichen Wachstumsrate (, CAGR) bei 21% von 2021 bis 2024 auf 149 ZB ansteigen wird. Die Unternehmen wissen, dass sie Millionen Dollar sparen und den Umsatz erhöhen können, indem sie diese Daten sammeln und anhand der Vergangenheits- und Gegenwartsdaten Vorhersagen über die Zukunft treffen – doch um das zu tun, brauchen sie eine Möglichkeit, um alle diese Daten zu speichern.

Überall in der Geschäftswelt wird versucht, so schnell wie möglich Datenarchitekturen aufzubauen. Diese Architekturen müssen auch in der Lage sein, zukünftig zu erfassende Daten – unabhängig von ihrer Größe, Geschwindigkeit oder Art – zu verarbeiten und ihre Genauigkeit zu gewährleisten. Und diejenigen von uns, die mit Datenarchitekturen arbeiten, müssen genau wissen, wie sie funktionieren und welche Möglichkeiten sie bieten. Genau hier setzt dieses Buch an. Ich habe aus erster Hand erfahren, was passiert, wenn man die Konzepte der Datenarchitektur nicht richtig versteht. Ein mir bekanntes Unternehmen hat in zwei Jahren eine Datenarchitektur für 100 Millionen Dollar aufgebaut, nur um dann festzustellen, dass die Architektur die falsche Technologie verwendet hat, zu schwierig in der Anwendung und nicht flexibel genug war, um bestimmte Datentypen zu verarbeiten. Sie musste verworfen und von Grund auf neu aufgebaut werden. Lassen Sie nicht zu, dass Ihnen das passiert! Es geht darum, die richtigen Informationen zur richtigen Zeit und im richtigen Format an die richtigen Personen weiterzugeben. Dazu benötigen Sie eine Datenstruktur, mit der Sie die Daten erfassen, speichern, umwandeln und modellieren können (Big-Data-Verarbeitung), damit sie präzise und einfach genutzt werden können. Sie benötigen eine Architektur, die es jedem Endbenutzer, selbst einem mit sehr geringem technischem Wissen, ermöglicht, die Daten zu analysieren und Berichte und Dashboards zu erstellen, anstatt sich darauf zu verlassen, dass IT-Mitarbeiter mit profundem technischem Wissen dies für sie tun.

Kapitel 1 führt in Big Data und einige seiner grundlegenden Ideen ein. Anschließend erörtere ich, wie Unternehmen ihre Daten nutzen, wobei der Schwerpunkt auf Business Intelligence liegt, und wie diese Nutzung zunimmt, wenn die Datenstruktur eines Unternehmens reift.

Was ist Big Data, und wie kann Big Data Ihnen helfen?


Auch wenn das Adjektiv (groß) enthält, geht es nicht nur um die Größe der Daten. Vor allem geht es um alle Daten, egal ob groß oder klein, die in Ihrem Unternehmen existieren, sowie alle Daten außerhalb Ihres Unternehmens, die für Sie hilfreich sein könnten. Die Daten können in jedem Format vorliegen und mit beliebiger Regelmäßigkeit gesammelt werden. Um Big Data zu definieren, betrachtet man sie am besten als die Daten , unabhängig von ihrer Größe (), Geschwindigkeit () oder Vielfalt (). Neben diesen Kriterien gibt es drei weitere Faktoren, mit denen Sie Daten beschreiben können: Wahrhaftigkeit (), Variabilität () und Wert (). Nach den Anfangsbuchstaben der englischen Bezeichnungen sind sie allgemein als »die sechs Vs« von Big Data bekannt, wie Abbildung 1-1 zeigt.

Sehen wir uns jedes einzelne V genauer an:

Das Datenvolumen ist die schiere Menge der erzeugten und gespeicherten Daten. Das Volumen kann von Terabyte bis Petabyte reichen, und die Daten können aus einer Vielzahl von Quellen stammen, darunter soziale Medien, E-Commerce-Transaktionen, wissenschaftliche Experimente, Sensordaten von IoT-Geräten und viele mehr. Beispielsweise können die Daten von einem Auftragseingabesystem pro Tag mehrere Terabyte ausmachen, während IoT-Geräte Millionen von Ereignissen pro Minute streamen und Hunderte von Terabytes an Daten pro Tag erzeugen können.

Die bezieht sich auf das breite Spektrum an Datenquellen und -formaten. Diese lassen sich weiter unterteilen in (aus relationalen Datenbanken), (wie zum Beispiel Protokolle und Daten in den Formaten CSV, XML und JSON), (wie E-Mails, Dokumente und PDFs) und (Bilder, Audio, Video). Zum Beispiel wären Daten aus einem Auftragseingabesystem strukturierte Daten, da sie aus einer relationalen Datenbank stammen, während Daten von einem IoT-Gerät wahrscheinlich im JSON-Format vorliegen.

Die gibt an, wie schnell Daten erzeugt und verarbeitet werden. Wenn Daten eher selten erfasst werden, spricht man oft von (). Zum Beispiel könnten die tagsüber eingegangenen Bestellungen jede Nacht zusammengefasst und verarbeitet werden. Es ist aber auch üblich, dass Daten sehr häufig oder sogar in Echtzeit erfasst werden, insbesondere wenn sie mit hoher Geschwindigkeit entstehen, wie es beispielsweise bei Daten von sozialen Medien, IoT-Geräten und mobilen Anwendungen der Fall ist.

Mit sind Genauigkeit und Zuverlässigkeit der Daten gemeint. Die Quellen für Big Data könnten unterschiedlicher nicht sein. Unzuverlässige oder unvollständige Daten beeinträchtigen gegebenenfalls die Qualität der Daten. Wenn die Daten zum Beispiel von einem IoT-Gerät kommen, etwa von einer Sicherheitskamera vor Ihrem Haus, die auf die Einfahrt gerichtet ist, und die Ihnen eine Textnachricht sendet, wenn eine Person erkannt wird, ist es durchaus möglich, dass Umgebungseinflüsse wie zum Beispiel das Wetter dazu führen, dass eine Person statt einer Katze erkannt wird, und das Überwachungsgerät somit verfälschte Daten sendet. Daher ist es unumgänglich, die Daten zu validieren, sobald sie empfangen werden.

meint die Konsistenz (oder Inkonsistenz) von Daten hinsichtlich ihres Formats, ihrer Qualität und ihrer Bedeutung. Strukturierte, teilstrukturierte und unstrukturierte Datenformate zu verarbeiten, verlangt verschiedene Tools und Techniken. So können beispielsweise Art, Häufigkeit und Qualität der Sensordaten von IoT-Geräten sehr unterschiedlich sein. Temperatur- und Luftfeuchtigkeitssensoren können Datenpunkte in regelmäßigen Intervallen erzeugen, während Bewegungssensoren möglicherweise nur dann Daten liefern, wenn sie eine Bewegung erkennen.

Das wichtigste V steht für , d.h. den Wert, der sich auf die Nützlichkeit und Relevanz der Daten bezieht. Unternehmen nutzen Big Data, um Erkenntnisse zu gewinnen und Entscheidungen zu treffen, die zu einem geschäftlichen Nutzen führen können, zum Beispiel zu höherer Effizienz, zu Kosteneinsparungen oder zu neuen Einnahmequellen. So können Unternehmen das Verhalten, die Vorlieben und die Bedürfnisse ihrer Kunden besser verstehen, indem sie die Kundendaten analysieren. Anhand dieser Informationen sind sie in der Lage, zielgerichtete Marketingkampagnen zu entwickeln, die Kundenzufriedenheit zu verbessern und den Umsatz zu steigern.

Mithilfe von Big Data können Unternehmen Erkenntnisse gewinnen, die ihnen helfen, bessere Geschäftsentscheidungen zu treffen. Die ist eine Art der Datenanalyse, die statistische Algorithmen und Machine Learning einbezieht, um historische Daten zu analysieren und Vorhersagen über zukünftige Ereignisse und Trends zu treffen. Dadurch können Unternehmen proaktiv und nicht nur reaktiv handeln.

Viele Unternehmen bezeichnen Daten als »das neue Öl«, denn sie sind in der heutigen digitalen Wirtschaft zu einer unglaublich wertvollen Ressource geworden, ähnlich wie es das Öl in der industriellen Wirtschaft war. In vielerlei Hinsicht ähneln Daten Öl, denn sie...


James Serra arbeitet bei Microsoft als Architekt für Big-Data- und Data-Warehousing-Lösungen. Er hat sich zu einem Vordenker für die Nutzung und Anwendung von Big Data und Advanced Analytics entwickelt, einschließlich Datenarchitekturen wie Modern Data Warehouse, Data Lakehouse, Data Fabric und Data Mesh.

James Serra arbeitet bei Microsoft als Architekt für Big-Data- und Data-Warehousing-Lösungen. Er hat sich zu einem Vordenker für die Nutzung und Anwendung von Big Data und Advanced Analytics entwickelt, einschließlich Datenarchitekturen wie Modern Data Warehouse, Data Lakehouse, Data Fabric und Data Mesh.



Ihre Fragen, Wünsche oder Anmerkungen
Vorname*
Nachname*
Ihre E-Mail-Adresse*
Kundennr.
Ihre Nachricht*
Lediglich mit * gekennzeichnete Felder sind Pflichtfelder.
Wenn Sie die im Kontaktformular eingegebenen Daten durch Klick auf den nachfolgenden Button übersenden, erklären Sie sich damit einverstanden, dass wir Ihr Angaben für die Beantwortung Ihrer Anfrage verwenden. Selbstverständlich werden Ihre Daten vertraulich behandelt und nicht an Dritte weitergegeben. Sie können der Verwendung Ihrer Daten jederzeit widersprechen. Das Datenhandling bei Sack Fachmedien erklären wir Ihnen in unserer Datenschutzerklärung.