Um ein Data Warehouse richtig zu verstehen und in der Folge korrekt aufzusetzen, sollten Sie einige Fachbegriffe rund um das Thema kennen. Dazu gehören die klassische Datenbank, der Data Lake und der Data Mart. Die Unterschiede und Zusammenhänge erläutern wir im Folgenden.
Datenbank: Hierbei handelt es sich um eine digitale Ablage. Der größte Unterschied zwischen einem Data Warehouse und einer Datenbank sind der primäre Zweck und die Art der gespeicherten Daten. Datenbanken sind darauf ausgelegt, Daten für den täglichen Betrieb zu speichern, abzurufen und zu verwalten. Sie laufen beispielsweise im Hintergrund von Webshops, Buchhaltungs- und Kundenmanagementsystemen. Anders als Data Warehouses speichern Datenbanken üblicherweise nur aktuelle Daten und erlauben so keine Analyse von Trends und Mustern über bestimmte Zeiträume hinweg.
Data Lake: Hier können Sie große Mengen an Rohdaten in verschiedenen Formaten ablegen. Im Gegensatz zum Data Warehouse, bei dem die Daten schon vor der Speicherung einem strengen Schema unterliegen (Schema-on-Write), wird im Data Lake das Schema erst bei der Analyse angewendet (Schema-on-Read). So lassen sich vielfältige Daten speichern, ohne dass vorher genau klar sein muss, wie sie genutzt werden.
Data Mart: Dies ist eine Teilmenge eines Data Warehouse, die auf eine bestimmte Geschäftseinheit oder Abteilung zugeschnitten ist. Ein Data Mart enthält in der Regel eine Auswahl von Daten, die für die jeweiligen Nutzer:innen relevant und aufbereitet sind. Data Marts vereinfachen den Zugriff auf die benötigten Informationen, da die Datenmenge im Vergleich zum gesamten Data Warehouse reduziert ist.