Data Lake und Data Warehouse haben als unterschiedliche Repositorys jeweils ihre eigene Berechtigung am Markt. Sie bedienen sehr unterschiedliche Nutzungsprofile.
Mit einem Data Lake können Sie einfach und schnell ganz unterschiedliche Datenbestände zusammenführen: von Sensordaten über Verkaufszahlen bis hin zu Buchungsdaten aus Ihrem Onlineshop. Der Aufwand, um aus diesen Daten Rückschlüsse zu ziehen, ist insgesamt deutlich höher als bei einem Data Warehouse – und in der Regel die Aufgabe von Spezialist:innen aus dem Bereich Data Science. Auch Analytics Engineers, die KI-Modelle trainieren, arbeiten häufig mit Data Lakes.
Ein Data Lake erfasst beispielsweise:
Logdateien Ihrer Webserver
Die Anzahl der Käufer:innen und der Produkte, die sie in Ihren Filialen gekauft haben – aufgeschlüsselt nach Wochentagen, Wetter und Jahreszeiten
Informationen zu Ihren Firmenfahrzeugen: Kilometerleistungen, Verbrauchswerte, reparaturbedingte Ausfälle
Alle Social-Media-Beiträge zu Ihren Produkten oder zu Ihrem Marktumfeld
Buchungsdaten aus ihrem Onlineshop
Grafiken und Audiodateien, beispielsweise aus Ihrer Entwurfsabteilung oder Forschung und Entwicklung.
Ein Data Warehouse ist gut für Sie geeignet, wenn Sie in der Hauptsache mit strukturierten oder nachträglich leicht strukturierbaren Daten arbeiten. Hier ist für die Analyse der ausgehenden Daten weniger Spezialwissen notwendig, da die Datenbestände in ihrer Form und ihrer Aussagekraft bereits gut untersucht sind. Diese Daten werden unter andrem von Datenanalyst:innen weiterverarbeitet. Sie suchen beispielsweise Antworten auf konkreten Detailfragen oder beliefern das Management oder das Business Development mit Geschäftszahlen.
Ein Data Warehouse erfasst beispielsweise:
Geschäftsberichte
Artikellisten
Preiskalkulationen
Data Warehouse – unterschiedliche Definitionen
Bei der Definition eines Data Warehouses gibt es je nach Anbieter kleinere Unterschiede. Beispielsweise definiert der Cloud-Dienstleister Amazon ein Data Warehouse als Repository für strukturierte und für semi-strukturierte Daten. Andere Anbieter sehen darin einen Speicherort ausschließlich für strukturierte Daten.
Wenn Sie einen Dienstleister mit der Einrichtung eines Repositorys beauftragen, sollten Sie also vorher genau prüfen, wie der Betreiber das von Ihnen gewünschte Format genau definiert.