Big Data bezeichnet in der IT Datenmengen, die zu groß, zu komplex, zu schnelllebig oder zu schlecht strukturiert sind, um sie mit herkömmlichen Methoden der Datenverarbeitung auszuwerten. Bei geringeren Datenmengen genügte in der Vergangenheit beispielsweise die manuelle Eingabe in ein Excel-Dokument, um Daten auszuwerten. Doch in vielen Unternehmen fallen mittlerweile erheblich mehr Daten als früher. Die Analyse dieser mitunter enorm großen Datenmengen kann allerdings wichtige Einblicke und Erkenntnisse in sämtliche Geschäftsprozesse bieten. Aus diesem Grund müssen bei Big Data andere Methoden zum Einsatz kommen.
Diese umfangreichen Datenmengen können aus unterschiedlichen Quellen stammen – zum Beispiel von IoT-Geräten in Firmengebäuden, Transaktionssystemen, Datenbanken von Kund:innen oder medizinischen Diagnostiksystemen.
Große Datenmengen liefern Einblicke
Das Ziel von Big Data Analytics ist es, Muster, Korrelationen, Trends oder auch Kundenpräferenzen zu erkennen. Diese Ergebnisse helfen Unternehmen dabei, fundierte Geschäftsentscheidungen zu treffen. Die automatisierte Beurteilung von betrieblichen Abläufen wird damit überhaupt erst möglich.
Die Analyse großer Datenmengen umfasst drei aufeinander aufbauende Prozessschritte:
Datenbeschaffung: Unternehmen stehen vor der Aufgabe, die zur Analyse vorgesehenen Datenquellen zu erschließen, ihre Qualität zu bewerten bzw. sicherzustellen, sie in geeigneten Dateiformaten bereitzustellen und den Datenfluss so zu strukturieren, dass die Aktualität und Relevanz der Daten gewährleistet bleibt. Dies kann beispielsweise in einem Data Lake geschehen, einem Datenspeicher, der sich aus verschiedenen Quellen sämtlicher Unternehmensbereiche speist und sowohl strukturierte als auch unstrukturierte Daten enthalten kann. Datenaufbereitung: Häufig ist es für die Analyse der Daten erforderlich, sie vorher zu reinigen, zu filtern und Fehler zu beheben. Ein Data Warehouse sammelt die bereits für Analyse- und Reportingzwecke aufbereiteten Daten. Erste sauber und gut strukturierte Daten können als Grundlage für Big Data Analytics dienen. Datenauswertung: Um die gesammelten und aufbereiteten Daten auszuwerten, stehen verschiedene Analyseverfahren zur Auswahl. Hierzu zählen beispielsweise Data Mining, Machine Learning und Business Intelligence.