Schmuckbild
Cloud & Hosting

Data Lake vs. Data Warehouse: So unterscheiden sich die Datenspeicher

Die Analyse Ihrer Geschäftsdaten kann Ihnen wertvolle Informationen liefern. Doch wie wollen Sie Ihre Daten dafür speichern? Verschiedene Speicherarchitekturen stehen zur Auswahl: Die bekanntesten sind der Data Lake und das Data Warehouse. Was sind die Unterschiede?

Beim Einstieg in die Geschäftsdatenanalyse begegnen Ihnen zahlreiche Fachbegriffe – beispielsweise Data Lake und Data Warehouse. Dieser Artikel hilft Ihnen bei der Entscheidung für eine Speicherarchitektur, die zu Ihren Anforderungen passt.

Inhaltsverzeichnis

Was sind Data Lake und Data Warehouse?

Mit der zunehmenden Verbreitung digitaler Technologien fallen in den meisten Unternehmen immer größere Datenmengen an. Um diese Datenmengen mittels Big Data Analytics zu untersuchen, brauchen Sie entsprechend große Speicher, um die Daten erst zu verwahren und dann für die Auswertung vorzubereiten.
Solche großen Datenspeicher heißen im Englischen auch Repositories. Es gibt verschiedene Architekturen für Repositories. Zwei der meist genutzten sind der Data Lake (auf Deutsch: Datensee) und das Data Warehouse (auf Deutsch: Datenlagerhaus).
Um die Unterschiede zwischen Data Lake und Warehouse zu verstehen, ist es hilfreich, die unterschiedliche Datenarten in der Informatik zu kennen. So wird bei Big Data unterschieden zwischen strukturierten, semi-strukturierten und unstrukturierten Daten.

Strukturierte Daten

Strukturierte Daten lassen sich vollständig und eindeutig in ein sogenanntes wohldefiniertes Datenmodell überführen. Das heißt: Alle Informationen besitzen zusätzliche Metadaten, über die sie eindeutig definiert sind. Sie sind beispielsweise gekennzeichnet als Messdaten im Fließkommaformat, als Preisangaben in Landeswährung oder als Personennamen. Die Metadaten definieren auch, wie diese Daten in eine Ordnung, also in ein Verhältnis zueinander gebracht werden können.
Damit sind die Daten relational. Somit lassen sie sich direkt beim Eintreffen im Repository in einer sogenannten relationalen Datenbank in Tabellen abspeichern und später sehr einfach maschinell auswerten. Ein Beispiel für einen Datenbestand bestehend aus strukturierten Datenelementen wäre eine Artikelliste im Excel-Format.

Semi-strukturierte Daten

Semi-strukturierte Daten besitzen zwar ebenfalls Metadaten, sind aber nicht streng tabellarisch organisiert. Sie können beispielweise in einer Baumstruktur vorliegen, deren Knoten unterschiedliche Eigenschaften haben oder unterschiedlich viele Datenfelder umfassen. Somit kann ein Computer diese Daten nicht ohne zusätzliche Bearbeitungsschritte in eine relationale Datenbank überführen.
Ein Beispiel für semi-strukturierte Daten wäre ein E-Mail-Postfach. Eine Computerlogik könnte die E-Mails zwar nach Datum, Empfängeradresse oder Länge sortieren. Aber die eigentlichen Texte der E-Mails wären nach Syntax, Thema und Aufbau zu unterschiedlich für ein simples Sortierprogramm. Die Daten wären so unverständlich, dass das Programm sie nicht sinnvoll in eine logische Tabellenstruktur umwandeln könnte. Erst mit menschlicher Hilfe oder beispielsweise einer künstlichen Intelligenz könnten die Inhalte der E-Mails so umformuliert und standardisiert werden, dass sie eine vereinheitlichte Tabellenform erhalten können.

Unstrukturierte Daten

Unstrukturierte Daten sind alle sonstigen Daten ohne eine erkennbare Formatierung. Ein Computer kann unstrukturierte Daten zwar digital speichern – etwa chronologisch in der Reihenfolge ihres Eingangs. Aber der Computer könnte diese Daten nicht sinnvoll strukturieren oder in Tabellen organisieren. Ein Beispiel für unstrukturierte Daten ist der durchlaufende Datenstrom eines Sensors. Aber auch ein verschlüsselter Datenverkehr im Internet besteht aus unstrukturierten Daten: Ein Computer kann ihn ohne Kenntnis der Verschlüsselung ebenfalls nicht sinnvoll strukturieren.
Gut gelaunter Mann mit einem Headset vor einem Notebook.

Microsoft Azure: Back-up, SharePoint und Virtual Desktops

Sichern und archivieren Sie wertvolle Daten jetzt noch einfacher.

Mit Single-Sign-on für IT-Anwendungen und SharePoint-Integration stellen Sie Desktop-Anwendungen jetzt noch schneller bereit.

Und mit dem Azure Virtual Desktop konzentrieren Sie sich auf Strategie und Management – statt um die Verwaltung Ihrer Infrastruktur.

Unterschiede der Repositorys

Aus diesen unterschiedlichen Eigenschaften von Datenbeständen ergeben sich die Unterschiede zwischen einem Data Lake und ein Data Warehouse:
  • Ein Data Lake speichert sowohl unstrukturierte als auch strukturierte und semi-strukturierte Daten. Er kann also beispielsweise nebeneinander Tabellen, Audiodaten, Messdaten, Prüfprotokolle, Pixel-Grafiken und E-Mails verwahren. Erst später, beim Auslesen zur nachfolgenden Analyse, werden die Datensätze aus einem Data Lake für die weitere Verarbeitung strukturiert – soweit dies möglich ist. Man spricht im Englischen auch vom Prinzip „Schema-on-Read“ (auf Deutsch: „Strukturierung beim Auslesen“).
  • Ein Data Warehouse speichert im Unterschied zum Data Lake ausschließlich strukturierte Daten und legt sie in seinen relationalen Datenbanken ab. Die Daten sind somit bereits beim Schreiben in das Data Warehouse strukturiert. Deswegen heißt das entsprechende Verarbeitungsprinzip hier „Schema-on-Write“ (auf Deutsch: „Strukturierung beim Einlesen“). Eine Sonderform ist das Parallel Data Warehouse mit seiner besonders großen Rechenleistung.
Data Lake und Data Warehouse speichern Ihre Daten für eine spätere Auswertung. Sie sind also keine Back-up-Medien, sondern dienen der Geschäftsanalytik. Nach dem Auslesen werden die Daten automatisiert oder manuell untersucht. Mögliche weitere Stationen sind:
  • Data Science: Durch die Untersuchung großer Datenmengen auf darin enthaltene Muster lassen sich Prognosen und Geschäftsentscheidungen verbessern.
  • Machine Learning: Das Trainieren von künstlichen Intelligenzen mithilfe großer Datenmengen kann beispielsweise dabei helfen, Ausfälle von Maschinen vorherzusagen (Predictive Maintenance).
  • Advanced Analytics: Hier kommen besonders aufwendige statistische Verfahren zum Einsatz, um die Vorhersagen aus anderen Bereichen zu überprüfen oder zu vertiefen.
  • Business Intelligence: Zur Business Intelligence gehört beispielsweise das Finden neuer interessanter Geschäftsfelder (Business Development).
  • Andere Formen der Datenverarbeitung
Die Unterschiede zwischen Data Lake und Data Warehouse, dargestellt als Schaubild.
Während der Data Lake jede Form von Daten speichern kann, ist das Data Warehouse speziell für strukturierte Daten gedacht.
Auf die unterschiedlichen Prinzipien der Datenverwahrung beziehen sich auch die Namen der beiden Repository-Varianten.
Beim Data Lake sind zwar alle Datensätze über ein Inhaltsverzeichnis (Directory) eindeutig auffindbar. Aber innerhalb des „Sees“ liegen die Datensätze mit und ohne Struktur verteilt nebeneinander. Bei der Entnahme der Daten zur weiteren Analyse fließen die jeweiligen Daten ähnlich wie ein Wasserfall aus dem Datensee heraus.
Das Data Warehouse legt hingegen alle seine Daten vollständig in Tabellen mit Zeilen und Spalten ab – ähnlich einem echten Lagerhaus, das seine Lagerplätze über ein Koordinatensystem aus Regalnummern und Regalfachnummern strukturiert. Deshalb kann ein Data Warehouse keine unstrukturierten Daten erfassen: Es könnte diese Daten nicht sinnvoll in sein virtuelles Lagersystem einbauen. Darum werden die vollständig strukturierten Daten bei der späteren Analyse nicht als Datenstrom entnommen wie beim Data Lake, sondern als sortierte Tabellenpakete.
Das Foto zeigt eine Frau mit Smartphone

Whitepaper: Ihr Weg in die Cloud

Cloud-Lösungen sind entscheidend für die digitale Transformation. Mit unserem ausführlichen Leitfaden erwerben Sie das notwendige Wissen für die Migration auf moderne(re) Systeme. 

  • Die wesentlichen Migrationsschritte im Überblick
  • Spannende Fallbeispiele
  • Aktuelle Studienergebnisse
Jetzt kostenlos downloaden

Das sind die wichtigsten Unterschiede

Aus den beschriebenen Eigenschaften von Data Lake und Data Warehouse ergeben sich die Unterschiede zwischen beiden Repository-Typen. Die nachfolgende Tabelle zeigt sie im Vergleich:
Art der gespeicherten Daten
Nimmt jegliche Art von Daten auf
Nimmt nur strukturierte Daten auf
Organisation der Daten
Datenbestände auffindbar über Inhaltsverzeichnis
Einzelne Daten auffindbar in relationalen Datenbanken
Strukturierung
Bei der Ausgabe der Daten
Beim Erhalt der Daten
Ausgabe
Als Datenfluss
In Form von Datenpaketen
Als Speicher geeignet für
Jegliche Art von Business-Daten
Bestimmte Arten von Business-Daten, teilweise erst nach Bearbeitung
Skalierbarkeit und Erweiterbarkeit für neue Datenquellen
sehr einfach
aufwendig
Nachteile
Höherer Administrationsaufwand im laufenden Betrieb
Höherer einmaliger Aufwand bei der Integration neuer Datenformate/Tabellentypen
Zielgruppe für die gelieferten Daten
Business-Analytiker:innen
Data Scientists
Data Lake
Date Warehouse
Beim Data Lake müssen Sie mit einem dauerhaft höheren Aufwand im Betrieb des Repositorys rechnen, weil Sie alle Datenbestände gut dokumentieren und erreichbar halten müssen. Geht der Zugang zu einzelnen Datenbeständen im Data Lake verloren, verwandelt sich der Data Lake mit der Zeit zu einem sogenannten Data Swamp (auf Deutsch: Datensumpf). Inhalte lagern sich dann bildhaft gesprochen am Grund Ihres Repositorys ab und entziehen sich damit dauerhaft der Analyse.
Beim Data Warehouse haben Sie hingegen nur dann einen deutlich höheren Aufwand, wenn Sie neue Datenformate erstmalig in das Repository integrieren möchten. Hier müssen Sie beispielsweise erst passende Datenbank-Formate erstellen, aus den Daten ableiten oder neue Importfilter programmieren. Aber wenn neue Daten in Ihrem Data Warehouse erst einmal bekannt sind, können Sie diesen Importmechanismus immer wieder verwenden. Das Data Warehouse wird also immer effizienter im Betrieb, je seltener neue Datenformate hinzukommen.
Mann steht inmitten einer Server-Racklandschaft in einem Rechenzentrum

Vodafone Total Cloud Professional Services

Wir beraten Sie in jeder Phase Ihres Cloud-Projekts und erarbeiten mit Ihnen, welche IT-Ressourcen Sie haben – und welche Sie brauchen. Zusammen entwerfen wir in unserer Roadmap das Design und den Aufbau Ihrer optimalen IT-Landschaft.

  • Effiziente Beratung auf den Punkt
  • Alles aus einer Hand

Data Lake vs. Data Warehouse – was passt besser zu welchem Einsatzgebiet?

Data Lake und Data Warehouse haben als unterschiedliche Repositorys jeweils ihre eigene Berechtigung am Markt. Sie bedienen sehr unterschiedliche Nutzungsprofile.
Mit einem Data Lake können Sie einfach und schnell ganz unterschiedliche Datenbestände zusammenführen: von Sensordaten über Verkaufszahlen bis hin zu Buchungsdaten aus Ihrem Onlineshop. Der Aufwand, um aus diesen Daten Rückschlüsse zu ziehen, ist insgesamt deutlich höher als bei einem Data Warehouse – und in der Regel die Aufgabe von Spezialist:innen aus dem Bereich Data Science. Auch Analytics Engineers, die KI-Modelle trainieren, arbeiten häufig mit Data Lakes.
Ein Data Lake erfasst beispielsweise:
  • Logdateien Ihrer Webserver
  • Die Anzahl der Käufer:innen und der Produkte, die sie in Ihren Filialen gekauft haben – aufgeschlüsselt nach Wochentagen, Wetter und Jahreszeiten
  • Informationen zu Ihren Firmenfahrzeugen: Kilometerleistungen, Verbrauchswerte, reparaturbedingte Ausfälle
  • Alle Social-Media-Beiträge zu Ihren Produkten oder zu Ihrem Marktumfeld
  • Buchungsdaten aus ihrem Onlineshop
  • Grafiken und Audiodateien, beispielsweise aus Ihrer Entwurfsabteilung oder Forschung und Entwicklung.
Ein Data Warehouse ist gut für Sie geeignet, wenn Sie in der Hauptsache mit strukturierten oder nachträglich leicht strukturierbaren Daten arbeiten. Hier ist für die Analyse der ausgehenden Daten weniger Spezialwissen notwendig, da die Datenbestände in ihrer Form und ihrer Aussagekraft bereits gut untersucht sind. Diese Daten werden unter andrem von Datenanalyst:innen weiterverarbeitet. Sie suchen beispielsweise Antworten auf konkreten Detailfragen oder beliefern das Management oder das Business Development mit Geschäftszahlen.
Ein Data Warehouse erfasst beispielsweise:
  • Geschäftsberichte
  • Artikellisten
  • Preiskalkulationen

Data Warehouse – unterschiedliche Definitionen

Bei der Definition eines Data Warehouses gibt es je nach Anbieter kleinere Unterschiede. Beispielsweise definiert der Cloud-Dienstleister Amazon ein Data Warehouse als Repository für strukturierte und für semi-strukturierte Daten. Andere Anbieter sehen darin einen Speicherort ausschließlich für strukturierte Daten.
Wenn Sie einen Dienstleister mit der Einrichtung eines Repositorys beauftragen, sollten Sie also vorher genau prüfen, wie der Betreiber das von Ihnen gewünschte Format genau definiert.
Empfohlener externer Inhalt
Hier ist ein Video-Inhalt von YouTube. Er ergänzt die Informationen auf dieser Seite.
Sie können ihn mit einem Klick anzeigen und wieder ausblenden.
Ich bin einverstanden, dass externe Inhalte angezeigt werden. So können personenbezogene Daten an Drittplattformen übermittelt werden. Mehr in unserer  Datenschutzerklärung.
Datenschutzerklärung

Data Mart vs. Data Lakehouse vs. Data Mesh vs. Data Fabric

Neben dem Data Lake und dem Data Warehouse gibt es weitere Repository-Typen:

Data Mart

Ein Data Mart ist technisch wie ein Data Warehouse aufgebaut. Es handelt sich also ebenfalls um eine große relationale Datenbank für strukturierte Daten. Allerdings bezieht ein Data Mart seine Inhalte aus unterschiedlichen Quellen, beispielsweise aus verschiedenen Geschäftsbereichen eines Unternehmens oder von internen und externen Datenlieferanten.
Während also ein Data Warehouse in der Regel unterschiedliche Daten aus einem Unternehmensbereich zusammenführt, sammelt ein Data Mart thematisch zusammengehörige Daten aus unterschiedlichen Bereichen einer Firma. Sie können einen Data Mart beispielsweise für ein bestimmtes Projekt anlegen und nach Abschluss des Projektes wieder abwickeln. Im Vergleich dazu ist ein Data Warehouse auf dauerhafte Nutzung ausgelegt.

Data Lakehouse

Die Bezeichnung „Data Lakehouse“ ist ein Kunstwort aus den Begriffen „Data Lake“ und „Data Warehouse“. Ein solches Data Lakehouse soll die beiden Repository-Typen verbinden und so die Anzahl der Repositorys im Unternehmen reduzieren. So sind Sie flexibler in der Anwendung. Der Preis dafür ist ein insgesamt höherer Organisationsaufwand, da die Nachteile beider Repository-Formen zu berücksichtigen sind: höherer Anpassungsaufwand für neu aufzunehmende Datentypen beim Data Warehouse sowie höherer dauerhafter Aufwand für den Betrieb eines Data Lake. Im Gegenzug reduzieren Sie die Anzahl der Repositorys in Ihrem Unternehmen und vermeiden zugleich doppelte Datenflüsse.
Symbolische Cloud-Darstellung

Garantierte Sicherheit: Private-Cloud-Angebote von Vodafone

Legen Sie bei Cloud-Anwendungen Wert auf garantierte Sicherheit? Dann ist die Private Cloud genau die richtige Lösung für Sie. Denn genau das bietet die auf Ihre Ansprüche zugeschnittene IT-Infrastruktur in unserem Tier3+-Rechnzentrum in Frankfurt.

Unsere Private-Cloud-Angebote sind einfach und flexibel skalierbar – passgenau zu Ihrem Business-Bedarf. So ist Ihr Unternehmen allen Anforderungen in einem dynamischen Markt gewachsen und haben dabei stets Ihre Kosten und Ressourcen im Blick.

Data Mesh

Das Data Mesh (auf Deutsch: Datennetz) ist eine Unterart des Data Lake. Hier wird der Datensee aufgeteilt und verwandelt sich in ein virtuelles Netz aus vielen kleinen Datenseen, die gemeinsam einen großen ergeben. Damit erhält beispielsweise jede Unternehmenseinheit ihr individuelles Repository in eigener Verantwortung und für die eigene Nutzung – ohne dass Sie dafür viele einzelne Data Lakes aufwendig anlegen müssen. Außerdem können Abteilungen einer Firma so leichter Datenbestände austauschen. Das Data Mesh steht im Zeichen erhöhter Datenautonomie, weil alle Abteilungen für ihre eigenen Daten verantwortlich sind.
Die Einrichtung eines solchen Data Mesh kann in einem internationalen Unternehmen außerdem aus Compliance-Gründen geboten sein, wenn Daten aus rechtlichen Gründen nicht über Ländergrenzen verschoben werden dürfen. Aber auch in Behörden kann es vorkommen, dass bestimmte Daten aus Datenschutzgründen nur einzelnen Behördenabteilungen zugeordnet sein dürfen.
Eine weitere Überlegung ist, dass die einzelnen Abteilungen eines Unternehmens oft genauer wissen, welche Informationen in ihren Daten zu finden sind. So können sie besonders zielgerichtet passende Verarbeitungswerkzeuge und Abfragen für diese Daten erstellen.

Data Fabric

Der Begriff „Data Fabric“ lässt sich im Deutschen am ehesten mit „Datenstruktur“ oder „Datengewebe“ übersetzen. Mit einem Data Fabric erhalten Sie ein Paket aus Prozessen und Software für Erfassung, Bereinigung, Aufbereitung und Analyse von Daten sowie für Maschinelles Lernen und Reporting mit Zugriff auf alle Repositorys in Ihrer Firma.
Damit können Sie Daten also unternehmensweit automatisiert verarbeiten und daraus Ihre Ergebnisse gewinnen, ohne viele einzelne Anwendungen dafür zu erstellen. Das Data Fabric wird häufig als Gegenkonzept zum Data Mesh gesehen: Denn hier teilen Sie nicht Ihre Daten-Repositorys für die einzelnen Abteilungen auf, sondern führen alle Big-Data-Speicher zusammen und legen eine globale Prozessschicht darüber.
Ein Mann und eine Frau sitzen lächelnd vor einer Tischplatte, auf der mehrere Computer stehen. Beide blicken auf ein Tablet.

Microsoft Fabric - Die Zukunft der Datenanalyse auf Azure

Microsoft Fabric ist die ganzheitliche Datenplattform für Unternehmen, die Datenintegration, Analyse und KI-gestützte Erkenntnisse in einer einzigen Lösung vereint. Mit nahtloser Einbindung in Microsoft Azure ermöglicht Fabric eine skalierbare, sichere und leistungsstarke Datenverarbeitung - von der Quelle bis zur Visualisierung.

Nutzen Sie die volle Power von Microsoft Fabric auf Azure. Für schnellere Insights und smartere Entscheidungen!

Data Lake vs. Data Warehouse: Das Wichtigste in Kürze

  • Der Data Lake und das Data Warehouse sind Speicher (Repositorys) für die Analyse sehr großer Datenmengen (Big Data).
  • Ein Data Lake kann grundsätzlich jede Art von digitalen Informationen speichern. Die Aufbereitung für die Analyse erfolgt erst bei Entnahme der Daten aus dem Data Lake (Schema-on-Read).
  • Ein Data Warehouse verwahrt nur strukturierte Daten. Die Inhalte des Data Warehouse werden also strukturiert erfasst oder direkt bei Übernahme in das Data Warehouse strukturiert (Schema-on-Write).
  • Beide Repository-Typen haben ihre Berechtigung, da sie unterschiedlichen Zwecken dienen und von unterschiedlichen Zielgruppen genutzt werden.
  • Neben den genannten Repositorys gibt es auch Mischformen wie das Data Lakehouse.
Das könnte Sie auch interessieren:
Cloud & Hosting
Schmuckbild

Cloud-Back-up: So sichern Sie Ihre Daten einfach und bequem in der Wolke

Cloud-Back-ups bieten kostengünstigen Speicher für die Sicherung großer Datenmengen und ermöglichen einet nahezu unterbrechungsfreie IT-Wiederherstellung. Mittlerweile nutzen 90 % der deutschen Unternehmen Private oder Public Clouds, wie der Bitkom „Cloud Report 2025“ zeigt – unter anderem für die Datensicherung. Wie Cloud-Back-ups funktionieren und was Sie als Unternehmen beachten sollten, erfahren Sie hier.

Digitalisierungsberatung

Die Beraterinnen und Berater helfen Ihnen kostenlos und unabhängig bei praktischen Fragen und geben konkrete Tipps. Vereinbaren Sie einen unverbindlichen Termin um Ihr Anliegen zu besprechen.

Termin vereinbaren