Azure Data Lake besteht aus drei unterschiedlichen Hauptkomponenten, die Sie für verschiedene Zwecke einsetzen können. Der Vorteil dieser Cloud-basierten Komponenten ist wie bei allen IaaS- und PaaS-Angeboten, dass Unternehmen keine eigene physische Hardware-Infrastruktur unterhalten müssen, um Daten zu speichern, zu strukturieren und zu analysieren. Der Betrieb von Servern und weiteren Geräten entfällt also.
Azure Data Lake Storage
Das Kernstück von Azure Data Lake ist ein Speicher, in dem Sie theoretisch unbegrenzte Datenmengen sichern können. Der Storage ist kein einzelner Dienst, sondern setzt sich aus einer Reihe von Funktionen zusammen, die Sie nach Bedarf jeweils einzeln mit dem sogenannten Blob-Storage-Dienst innerhalb Ihres Azure-Kontos aktivieren können. Er fügt Azure Blob Storage weitere Funktionen hinzu, indem Sie die Option „hierarchischer Namespace“ innerhalb Ihres Azure-Storage-Kontos aktivieren.
Der Data Lake Storage ist von wenigen Kilobyte bis hin zu mehreren Petabyte frei skalierbar. Er bietet die Möglichkeit, sämtliche Daten aus unterschiedlichen Quellen einzuspeisen, etwa aus Datenbanken, CRM-Systemen, IoT-Daten, Medienbibliotheken und Unified-Communications-Lösungen. Auch externe Quellen können den Lake speisen, wie etwa Website- und Social-Media- Daten.
Azure Data Lake Analytik
Mittels Azure Data Lake Analytik können Sie Ihre im Data Lake gesammelten Daten direkt in der Rohform verarbeiten. Sie sind nicht darauf angewiesen, die Daten zunächst durch weitere virtuelle Maschinen, Cluster oder Server laufen zu lassen, um diese zu verwalten und zu strukturieren. Stattdessen analysiert Data Lake Analytics Ihre Daten nach Bedarf direkt bis zu einer Größe von mehreren Petabyte.
Diese Analytik geschieht on demand, also nur dann, wenn Sie diese konkret beauftragen. Damit entstehen Ihnen keinerlei Kosten durch etwa ein Abo-Modell; sondern nur dann, wenn Sie das Verarbeiten der Daten tatsächlich benötigen. Azure Data Lake Analytik basiert auf der Ressourcenverwaltung Apache Hadoop YARN (Yet Another Resource Navigator) und kann Big-Data-Aufträge in sehr kurzer Zeit umsetzen. Dadurch können Sie einfach Software einsetzen, mit der Sie die Daten in den Sprachen U-SQL, Python, R und .NET umwandeln und verarbeiten.
Mit Azure Synapse Analytics steht Ihnen zudem ein weiterer Dienst in der Azure-Umgebung bereit, mit dem Sie umfangreiche Analysen Ihres Datenbestands vornehmen können.
Azure HD Insight
Azure HD Insight ist ein gemanagter Open-Source-Analysedienst, der Unternehmen Frameworks wie Apache Spar, Apache Hive, Hadoop und mehr bereitstellt. Diese Code-Bausteine können Sie in Ihrer Azure-Umgebung verwenden, um etwa Verlaufsdaten oder Echtzeitdaten zu erfassen, die in Ihrem Data Lake gesammelt werden. Dazu gehören etwa Streamingdaten Ihrer IoT-Geräte und Abfragen von unstrukturierten oder strukturierten Daten in einem beliebigen Format. Zudem lässt sich mit HD Insight Ihre womöglich bereits vorhandene externe Big-Data-Infrastruktur auf Azure ausdehnen, um die Analysefunktionen in der Cloud darauf anzuwenden.