Azure ist der Markenname der Cloud-Computing-Plattform von Microsoft. Unter dieser Dachmarke bietet der Hersteller seinen Geschäftskunden rund 200 verschiedene Cloud-Dienste an. Die Bandbreite dieser Dienste reicht von Werkzeugen für die Software-Entwicklung und Containerisierung, über Backup-Services bis hin zu Datenbank-Applikationen für die Speicherung und Analyse großer Datenmengen („Big Data“). Bei der Bezeichnung von Speicherbeständen für sehr große Datenmengen folgt Microsoft den branchenüblichen Einteilungen.
Azure Data Warehouse
Ein Azure Data Warehouse (auf Deutsch: „Lagerhaus“) ist ein Datenspeicher („Repository“) auf Azure-Basis, in dem Sie Ihre Geschäftsdaten für die Datenanalyse ausschließlich strukturiert ablegen. Strukturierte Daten sind Daten, die ein bekanntes Format haben und daher auch in Tabellenform gespeichert werden können. Eine Datenbank, die mit solchen Tabellen arbeitet, wird auch relationale Datenbank genannt.
Die Reihenfolge beim Verarbeiten von Businessdaten in einem Data Warehouse lautet in der Regel: Erfassen – Strukturieren/Schematisieren – Speichern – Analysieren. Dieses Prinzip wird im Englischen auch als „Schema-on-Write“ bezeichnet, weil das Datenmodell bereits beim Speichern (Englisch: „to write“) zugewiesen wird.
Azure Data Lake
Ein Azure Data Lake (auf Deutsch: „Datensee“) ist ein Datenspeicher, in dem Sie Geschäftsdaten auch unstrukturiert verwahren können. Auch gemischte Datenbestände, die sich aus strukturierten, teilstrukturierten und unstrukturierten Daten zusammensetzen, sind möglich. Weil unstrukturierte Daten nicht in Tabellen organisiert werden können, arbeitet ein Data Lake mit nicht-relationalen Datenbanken, anderen Speicherformaten oder auch einer Kombination aus relationalen und nicht-relationalen Datenbanken. Im Data Lake lautet die Reihenfolge in der Datenverarbeitung: Erfassen – Speichern – Strukturieren/Schematisieren – Analysieren. Die Daten werden also erst dann vollständig in eine Struktur gebracht, wenn sie für die Businessanalyse wieder ausgelesen werden (Englisch: „to read“). Entsprechend heißt dieses Prinzip im Englischen auch „Schema-on-Read“.
Azure Data Lakehouse
Neben den beiden Ordnungsprinzipien Warehouse und Data Lake gibt es in der Praxis auch Mischformen aus den beiden Repository-Varianten, die parallel mit Schema-on-Write und Schema-on-Read arbeiten. Solche Datenspeicher werden dann als Data Lakehouse bezeichnet. Es handelt sich hierbei um ein Kunstwort, das die Bezeichnungen Data Warehouse und Data Lake kombiniert.
Die Analogien zum Lagerhaus und zum Datensee sind nicht zufällig gewählt. Das virtuelle Datenlagerhaus organisiert seine Daten über mehrdimensionale Tabellen, vergleichbar dem Koordinatensystem im Hochregallager eines echten Lagerhauses. Der Datensee hingegen speichert seine unstrukturierten Inhalte jeweils dort, wo gerade Platz verfügbar ist. Erst bei der Entnahme der Daten zur Analyse ergeben sich deren tatsächliche Dimensionen.
Typische Data Warehouses und Data Lakes enthalten heute sehr große Datenmengen bis in den Bereich von mehreren Petabytes. Das Handling solcher Volumina übersteigt üblicherweise die Kapazitäten lokaler Datenserver. Daher werden derartige Repositories zunehmend „cloudnative“, also direkt innerhalb einer Datencloud errichtet.