Fünf Personen sitzen in einem Meetingraum. Eine Frau stellt ein Dashboard vor an einem Screen.

Wenn ihr in der Datenmanagement-Branche tätig seid oder mit ihr in Kontakt steht, werdet ihr feststellen, dass viele Fachbegriffe verwendet werden. Die Terminologie von Anbietern und Beeinflussern kann recht unübersichtlich sein. Wenn ihr plant, eine Datenplattform aufzubauen oder eure bestehende zu verbessern, kann es eine ziemliche Herausforderung sein, zunächst die richtigen Konzepte für euch auszuwählen (ohne Technologie, Tools und Implementierung zu berücksichtigen). Außerdem kann es schwierig sein, ein Konzept von einem kommerziellen Angebot zu unterscheiden, das von Anbietern verwendet wird. Daher möchten wir euch einen Überblick über die allgemeine Terminologie und die Konzepte geben, die euch vermutlich begegnen werden und die für euer Verständnis nützlich sind.

Warum sollte ich mich mit Datenmanagement befassen und die Zeit damit verbringen, die Ideen hinter den großen Worten zu lernen?

Letztlich geht es um eine bessere Entscheidungsfindung und um Zeit- und Kosteneinsparungen. Unternehmen wollen datengesteuerte Entscheidungen treffen und brauchen eine Demokratisierung der Daten. Eine Datenmanagement-Plattform kann als eine einzige Quelle der Wahrheit fungieren. Das bedeutet, dass die Abteilungen nicht mehr auf unterschiedliche Versionen derselben Fakten zugreifen müssen, was eine bessere Zusammenarbeit ermöglicht. Außerdem wird der Zugang zu den Daten vereinfacht und ist nicht mehr nur für höhere Managementebenen möglich. Daten können aufbereitet und bereitgestellt werden, z. B. für Analysezwecke. Durch die Speicherung nicht nur aktueller Informationen, die natürlich eine bessere Entscheidungsfindung unterstützen, sondern auch historischer Daten, wird auch die Grundlage für zukünftige Anwendungsfälle gelegt.

Allerdings ist nicht jede Datenmanagement-Plattform automatisch ein Selbstläufer. Es gibt kein Produkt, das ihr einfach kaufen könnt und das all eure Probleme löst. Die Plattform muss selbst entwickelt werden. Um die Grundlagen für die Umsetzung einer hochwertigen Datenlösungsarchitektur zu schaffen, müsst ihr wissen, was ihr erreichen wollt. In den folgenden Abschnitten werden wir den ersten Schritt machen und euch helfen, die allgemeinen Konzepte der Datenverwaltung zu verstehen.

Data Warehouse: Ein Urgestein, aber gut etabliert

Bei allen Terminologien, die wir im Folgenden beschreiben, einschließlich des Data Warehouse, geht es um das Konzept und nicht um eine Technologie. Schauen wir uns die Definition von Bill Inmon aus den 1990er Jahren an, die immer noch gültig ist: „Ein Data Warehouse ist eine themenorientierte, integrierte, zeitlich variable und nicht flüchtige Sammlung von Daten zur Unterstützung des Entscheidungsprozesses des Managements“. Eine Sammlung von Daten, also ein Datenspeicher. Aber natürlich nicht irgendein Speicher oder einfach eine Kopie, sondern ein analysefähiger, der datengesteuerte Entscheidungen unterstützt. Ein Data Warehouse sammelt Daten aus verschiedenen Quellen. Entscheidend ist jedoch, dass es diese harmonisiert und zu einem konsistenten Ganzen zusammenfügt (integriert). Es geht also nicht um das System, aus dem die Daten stammen (was mehrere sein können), sondern um die Sache, die sie beschreiben (subjektorientiert). Wesentlich für datengestützte Entscheidungen sind nicht nur die Verfügbarkeit und Korrektheit der Daten, sondern auch ihre Aktualität. Daten können sich im Laufe der Zeit ändern, das heißt, das Data Warehouse muss auch aktuelle Informationen enthalten (zeitvariant). Aber auch historische Daten können für die Analytik nützlich sein. Hier spielt das Data Warehouse seinen Vorteil aus, da es Daten im Laufe der Zeit sammelt und verarbeitet und somit historische Informationen liefern kann (nicht flüchtig).

Grundlagen des Data Warehouse: Zentrale Drehscheibe für Analysen und datengestützte Entscheidungen

Zusammenfassend lässt sich sagen, dass ein Data Warehouse ein zentraler Ort ist, an dem Daten aus verschiedenen Quellen zusammengeführt und harmonisiert werden. Es enthält stets aktuelle Informationen, speichert aber auch historische Daten. Als solches ist es die zentrale Anlaufstelle für Analysen und datengesteuerte Entscheidungen.

Teilweise wird ein Data Warehouse auch über die Art der Daten definiert, die es enthalten kann. Mit den neuen Technologien wird diese Unterscheidung jedoch immer ungenauer. Im Allgemeinen kann ein Data Warehouse strukturierte Daten speichern, also Daten, die in Tabellen gespeichert werden können. Zum besseren Verständnis denkt einfach an Daten, die ihr in Excel speichern könnt. Bis zu einem gewissen Grad können Data Warehouses auch semi-strukturierte Daten verarbeiten. Dabei handelt es sich um Daten, die zum Beispiel in JSON- oder XML-Dateien gespeichert sind. Die dritte Kategorie sind unstrukturierte Daten. Das sind zum Beispiel PDFs oder Bilder. Dies führt uns jedoch direkt zum nächsten Abschnitt über Data Lakes.

Data Lake: Wofür entscheide ich mich, wenn ich meine Zeit nicht mit dem Modellieren und Organisieren von Daten verschwenden will?

Data Lake: Die kluge Wahl für zeiteffizientes Datenmanagement

Wie bereits erwähnt, führt uns der Begriff unstrukturierte Daten direkt zum Begriff Data Lake. Auch dieser ist heute ein weit verbreitetes und etabliertes Konzept im Datenmanagement. Er wurde eingeführt, um die Herausforderungen der explodierenden Datenmengen zu bewältigen und auch um den Bedarf an der Nutzung dieser unstrukturierten Daten in verschiedenen Anwendungsfällen zu decken. Dieser Trend wurde auch dadurch ermöglicht, dass die Speicherung in der Cloud wesentlich günstiger geworden ist.

Ein Data Lake erfüllt einen ähnlichen Zweck wie ein Data Warehouse, indem er alle Daten in einem zentralen Repository speichert. Als Konzept ist er jedoch lockerer definiert als ein Data Warehouse, wie ihr zum Beispiel an dieser Definition von Gartner sehen könnt: „Ein Data Lake ist ein Konzept, das aus einer Sammlung von Speicherinstanzen für verschiedene Datenbestände besteht. Diese Bestände werden in einer nahezu exakten oder sogar exakten Kopie des Quellformats gespeichert und ergänzen die ursprünglichen Datenspeicher“.

Manch einer mag denken, dass das Konzept eines Data Lakes wünschenswert ist, da er Daten in ihrem Rohformat enthält und daher keine Modellierungs- oder Overhead-Aufgaben erforderlich sind. An dieser Stelle möchten wir darauf hinweisen, dass dies ein Trugschluss ist. Auch Data Lakes benötigen dringend Datenmodellierungs- und Governance-Konzepte (mehr dazu in unserem nächsten Blogbeitrag), da sie dazu neigen, zu Datensümpfen zu werden, wenn Daten einfach „weggeworfen“ werden.

Data Lakehouse? Das klingt nach einem begehrten Urlaubsort!

Data Lakehouse: Das Beste aus Data Lake und Data Warehouse zusammenführen

Dies ist wahrscheinlich der am schicksten klingende Name. Oben habt ihr wahrscheinlich bemerkt, dass die Grenzen zwischen den beiden Konzepten Data Warehouse und Data Lake mit der Weiterentwicklung der Technologien in der Praxis unschärfer geworden sind. Es ist nicht mehr so einfach, zum Beispiel nach der Art der gespeicherten Daten zu unterscheiden, da diese sich überschneiden. Eine vorherrschende Konvention besagt, dass eine moderne Datenplattform sowohl Data-Lake- als auch Data-Warehouse-Funktionen haben muss und dass eine Aufgabe eines Data Lakes darin besteht, ein universelles Sammelbecken für alle Daten zu sein. So kann der Begriff „Data Lake“ beispielsweise zur Beschreibung der Landing Zone eines Data Warehouse verwendet werden (Stufe, in die Daten aus verschiedenen Quellen repliziert werden, bevor sie modelliert werden).

Dies zeigt, dass sich die Begriffe nicht mehr klar voneinander abgrenzen lassen. Das bekannteste kombinierte Technologiekonzept ist heutzutage ein Data Lakehouse. Dabei handelt es sich, wie der Name schon sagt, um ein Konzept, das Elemente von Data Lake und Warehouse kombiniert. Im Grunde ist es also ein ausgefallener Name für etwas, das sehr logisch zu machen ist.

Data Mart: Einfach unausweichlich

Data Mart: Eine wesentliche Komponente in Datenmanagement-Projekten

In euren Datenmanagement-Projekten werdet ihr höchstwahrscheinlich auf einen Data Mart stoßen. Zumindest dann, wenn ihr eure Daten richtig modelliert (mehr dazu im nächsten Blogbeitrag). Ein Data Mart kann als eine Teilmenge eines Data Warehouse betrachtet werden. Sein Ziel ist es, anwendungsorientiert zu sein. Euer Data Warehouse kann einen Satz harmonisierter und normalisierter Daten enthalten, die für mehrere Anwendungsfälle relevant sind. Ein Data Mart bereitet Daten so auf, dass sie den Bedürfnissen des Unternehmens und der Benutzer ideal entsprechen und für das Zielsystem (zum Beispiel verschiedene BI-Tools) geeignet sind. Das heißt, es könnte mehrere Data Marts geben, die alle auf denselben Daten basieren, aber unterschiedlich aufbereitet sind.

Data Mesh: Das neue Kind im Block

Erforschung von Data Mesh: Dezentralisierte Datenverwaltung im Jahr 2024

Data Mesh ist ein neuer Begriff, der in diesem Blogbeitrag vorkommt. Er wurde von Zhamak Dehghani im Jahr 2019 entwickelt. Es ist wichtig zu beachten, dass Data Mesh kein Nachfolger eines Data Warehouses oder eines Data Lakes oder einer Kombination davon ist. Es ist auch kein Allheilmittel, das alle Probleme lösen wird. Lasst uns jedoch besprechen, was es tatsächlich ist. Bisher war die Idee jeder Analyseplattform fast immer, ein zentralisiertes System um ein zentrales Datenteam herum zu haben. Es wurde jedoch festgestellt, dass dies zu einem Engpass werden kann, wenn die Analyseanfragen zunehmen und das Datenteam sie nicht alle bearbeiten kann. Daher folgt das Datennetz der Idee einer dezentralen, bereichsbezogenen Architektur. Das Fachgebietsteam übernimmt die Verantwortung für seine Daten und deren Verwaltung. Die Daten werden als Produkte für Verbraucher außerhalb der Domäne veröffentlicht. Das zentrale Datenteam ermöglicht es den Domänenteams, Datenprodukte zu nutzen und zu erstellen. Gute Governance-Prinzipien und Standardisierung sind dabei unerlässlich.

Data Powerhouse: Der Begriff, der Sie zum Lächeln bringt

Das Potenzial von Data Powerhouse freisetzen: Mehr als nur ein Buzzword

Um ehrlich zu sein, handelt es sich hierbei eher um eine informelle Darstellung und weniger um eine formale Abhandlung. Es ist wichtig, dass der Text klar und prägnant ist und keine umständlichen Beschreibungen oder komplexe Terminologie enthält. Der Begriff „Datenozean“ ist ein Beispiel für eine Kombination von Begriffen, die zum Nachdenken anregen und auch zum Schmunzeln bringen können. Der Begriff „Data Powerhouse“ bezieht sich auf die Kombination der Nutzung von Microsofts Power Platform mit einem Data Warehouse oder einem Data Lake. Es handelt sich hierbei um ein gutes Beispiel für unsere Behauptung in der Einleitung, dass es schwierig sein kann, zwischen einem Konzept und einem kommerziellen Angebotsnamen zu unterscheiden. Einige Personen verwenden den Begriff jedoch auch, um zu beschreiben, was aus eurem Unternehmen werden kann, wenn ihr eine effiziente Dateninfrastruktur implementiert.

Welchen schicken Namen soll ich jetzt wählen? Die Wahl der richtigen Datenmanagement-Strategie für Ihr Unternehmen

Am Ende könnt ihr es nennen, wie ihr wollt, solange ihr es richtig macht, es euren Bedürfnissen entspricht und ihr es anderen, mit denen ihr arbeitet, erklären könnt, sodass ihr alle auf derselben Seite steht. INFORM DataLab kann euch bei diesen Punkten auf dem Weg helfen, egal wo ihr gerade steht. Wenn ihr eine Datenstrategie entwickeln möchtet und euch fragt, wo diese hilfreich sein könnte und welchen Mehrwert ihr haben könntet, könnt ihr euch unser Angebot zur Datenstrategie ansehen. Falls ihr bereit seid, euch in den Aufbau eurer Datenarchitektur zu stürzen und nicht nur mit Begriffen zu jonglieren, stehen wir euch ebenfalls gerne zur Seite (INFORM DataLab Data Management).

Bleibt außerdem dran für weitere hilfreiche Blogbeiträge. Im nächsten Beitrag werden wir der Frage nachgehen, ob Datenmodellierung im Jahr 2024 noch relevant sein wird.

Lernt in unserem Data Vault Experience Workshop die Prinzipien und praktischen Anwendungen von Data Vault kennen. Ihr werdet die Bedeutung der Datenmodellierung, ihre Auswirkungen auf eine agile BI-Schicht und die Bausteine des Data Vault-Ansatzes kennenlernen. Anhand praktischer Übungen könnt ihr euch mit anderen Datenexperten austauschen und euer Wissen anwenden. Jetzt anmelden!