Schmuckbild
IoT

Explorative Datenanalyse: Ihr persönlicher Kompass im Daten-Dschungel

Kund:innen wandern ohne erkennbaren Grund ab? Lieferketten verursachen Probleme, die Sie nicht ergründen können? Hier bietet die Explorative Datenanalyse (EDA) Ihrer IT-Abteilung die Möglichkeit, einen Schritt zurückzutreten und Datensätze unvoreingenommen zu erforschen, statt nach bekannten Mustern zu suchen.

Standard-Reports zeigen Ihnen, was Sie wissen wollen. Doch was ist mit den Erkenntnissen, von denen Sie gar nicht wussten, dass sie in Ihren Daten stecken? Oft bleiben wertvolle Erkenntnisse in der Datenmenge Ihres Unternehmens verborgen, weil sie sich nicht in vordefinierte Berichte pressen lassen. Hier setzt die Explorative Datenanalyse (EDA) an. Wie sie genau funktioniert und wie Sie davon profitieren, erfahren Sie hier.

Inhaltsverzeichnis

Was ist explorative Datenanalyse?

Die Explorative Datenanalyse (EDA) ist ein fundamentaler Ansatz in der Datenanalyse. Sie soll IT-Abteilung und Management eines Unternehmens befähigen, große Datensätze auf ihre Hauptmerkmale hin zu untersuchen. Anders als bei analytischen Methoden, die spezifische Hypothesen testen, geht es bei der EDA darum, Daten unvoreingenommen zu erkunden. Auf diese Weise können Sie neue Muster, Beziehungen und Anomalien entdecken.
Die EDA widmet sich der ersten Sichtung und dem grundsätzlichen Verstehen der Daten, bevor Ihr Unternehmen damit beginnt, formelle und konkrete Anfragen zu stellen. Sie beleuchtet also, was Daten von sich aus erzählen können. Der amerikanische Mathematiker John Tukey entwickelte diesen Ansatz bereits in den 1970er-Jahren; also noch bevor abzusehen war, mit welchen enormen Datenmengen Unternehmen heute konfrontiert sind. EDA zeigt auch auf, ob die Daten überhaupt aussagekräftig genug für Ihre Geschäftsziele sind.
Bei der Explorativen Datenanalyse sichten Sie zunächst die Daten und verschaffen sich einen Überblick darüber, wie viele Daten es sind und was Sie überhaupt enthalten. Es geht darum, ein intuitives Verständnis für die Struktur und den Inhalt zu bekommen. Dies umfasst die Zusammenfassung von Datensätzen mithilfe grundlegender statistischer Kennzahlen und eine erste Visualisierung von Daten. Dadurch erkennen Sie etwa Verteilungen von Werten und identifizieren Ausreißer.
Eine Frau sitzt lächelnd vor einem Notebook

Vodafone Modbus Cloud Connect

Das All-in-One-Produkt für eine direkte Verbindung von Modbus-RTU-Geräten über LPWA (NB-IoT & LTE-M) in die Cloud.

  • Einfache Installation & Inbetriebnahme
  • Einfaches IoT-Upgrade von Bestandsgeräten (Retrofit)
  • Einfache, autarke Datenkommunikation über Narrowband-IoT & LTE-M
  • Einfacher und gesicherter Betrieb über den Lebenszeitraum

Warum ist explorative Datenanalyse wichtig?

Die Explorative Datenanalyse ist mehr als nur ein optionaler erster Schritt – sie ist das Fundament für jede erfolgreiche Datenstrategie. Ihr Hauptzweck besteht darin, die Daten gründlich zu prüfen, noch bevor Sie Annahmen treffen oder komplexe Modelle anwenden. Dies ist entscheidend, um sicherzustellen, dass die Ergebnisse Ihrer späteren Analysen valide sind und tatsächlich auf Ihre Geschäftsziele einzahlen. 
Ein zentraler Grund für die Bedeutung der EDA liegt in ihrer Fähigkeit, Fehler und Inkonsistenzen in den Daten frühzeitig zu erkennen. Schlechte Datenqualität führt zu fehlerhaften Erkenntnissen. Die EDA hilft Ihnen, diese Fehler zu identifizieren und zu beheben, bevor sie kostspielig werden.
Darüber hinaus ermöglicht die EDA ein tieferes Verständnis für Muster und Zusammenhänge in Ihren Datensätzen. Sie deckt auf, wie Variablen miteinander interagieren und welche Beziehungen zwischen ihnen bestehen. Dies ist besonders wertvoll, um Sonderfälle und Ausreißerzu erkennen. Denn gerade sie sind es, die auf unerwartete Entwicklungen oder Probleme hinweisen können. Ein Ausreißer in den Verkaufszahlen kann beispielsweise auf einen Betrugsversuch oder eine unerwartete Marktlücke hindeuten.

Die wichtigsten Tools und Methoden

Bei der Explorativen Datenanalyse können Sie auf eine Vielzahl bewährter Methoden und bekannter Tools zurückgreifen. Mit Methoden bezeichnet man die Vorgehensweisen und Techniken, mit denen Sie Ihre Daten untersuchen. Tools wiederum sind die Anwendungen, die Sie nutzen, um diese Methoden praktisch umzusetzen.

Methoden der Explorativen Datenanalyse

Das Fundament der Explorativen Datenanalyse sind drei Methoden: Datenbereinigung, deskriptive Statistik und Datenvisualisierung.
  • Datenbereinigung: Daten sind selten perfekt; sie enthalten oft fehlende Werte, Inkonsistenzen und Ausreißer. Ziel ist es, diese Probleme zu erkennen und zu beheben, damit die nachfolgende Analyse auf einer soliden Basis steht.
  • Deskriptive Statistik: Sie berechnet grundlegende Kennzahlen wie den Mittelwert, den Median, die Standardabweichung oder Quartile. Diese Maße geben Ihnen einen schnellen quantitativen Überblick über die Verteilung und die zentralen Tendenzen Ihrer Daten.
  • Datenvisualisierung: Grafische Darstellungen machen komplexe Datensätze intuitiv verständlich und helfen, Muster, Trends und Anomalien auf einen Blick zu erkennen. Zu den wichtigsten Techniken gehören in diesem Bereich Histogramme, Boxplots und Streudiagramme.

Tools für die Explorative Datenanalyse

Für erste Schritte in der EDA und bei kleineren, überschaubaren Datensätzen können Sie Tabellenkalkulationsprogramme wie Microsoft Excel nutzen. Excel eignet sich gut, um sich einen ersten quantitativen Überblick zu verschaffen, etwa über die Größe des Datensatzes oder fehlende Einträge. Doch sobald es um die Verknüpfung mehrerer Variablen oder um tiefergehende statistische Methoden geht, stößt Excel an seine Grenzen. Hier kommen spezialisierte Softwarelösungen zum Einsatz.
Business-Intelligence-Tools (BI-Tools): Programme wie Tableau oder Microsoft Power BI sind leistungsstarke Anwendungen für die Visualisierung großer Datenmengen und für die interaktive Exploration. 
Statistik-Software: Spezialisierte Statistikprogramme wie SPSS, SAS oder das quelloffene JASP bieten eine breite Palette an statistischen Funktionen und Visualisierungen, die über die Möglichkeiten von Tabellenkalkulationen hinausgehen.
Das Bild zeigt einen Mann mit einem Notebook

IoT-Plattform und Device Management

Mit Vodafone verwalten Sie Ihre SIM-Karten und IoT-Geräte. Jederzeit und auf der ganzen Welt. Nutzen Sie die IoT-Plattform als leistungsfähiges Self-Service-Tool zum Monitoring Ihrer SIM-Karten, Verbindungen und Services.

  • Globale IoT-Plattform
  • Integrated M2M-Terminals
  • Globale SIM-Karte

Diese Programmiersprachen sind relevant

Programmiersprachen gelten als die flexibelste Option für die EDA. Sie benötigen allerdings eine gewisse Fachkenntnis und Einarbeitungszeit. Wenn Sie diese Expertises in Ihrem Unternehmen haben, können Sie jede Datenart verarbeiten, hochgradig individuelle Analysen durchführen und sogar weiterführende Projekte wie maschinelles Lernen angehen. Im Bereich der EDA dominieren Python und R. Eine Sonderrolle nimmt SQL ein.

Programmiersprache Python

Python ist eine der populärsten Programmiersprachen. Ihr Vorteil sind die vergleichsweise leichte Syntax und die Vielseitigkeit. Sie verfügt über eine aktive Community und umfangreiche Bibliotheken. Hier finden Sie vorgefertigte Codes (Funktionen und Module), die Programmierer:innen nutzen können, um spezifische Probleme zu lösen, ohne selbst das Rad neu erfinden zu müssen. Es sind Werkzeugkisten mit unterschiedlichen Werkzeugen darin. Beispiele dafür sind:
  • Pandas: Diese Bibliothek stellt Funktionen bereit, mit denen Sie Daten aus verschiedenen Quellen importieren, bereinigen, filtern und zusammenfassen können.
  • Matplotlib: Hier finden Sie grundlegende Funktionen für die Datenvisualisierung.
  • Seaborn: Diese Bibliothek baut auf Matplotlib auf und ermöglicht,  komplexere Grafiken zu erstellen.
  • NumPy: Der Fokus liegt hier auf dem effizienten Arbeiten mit großen Datenfeldern.

Programmiersprache R

Die Programmiersprache R ist eine Open-Source-Programmiersprache und wird von der R Foundation for Statistical Computing gefördert. Sie wurde explizit für statistische Berechnungen und Grafiken entwickelt und ist deswegen unter Data Scientists weitverbreitet.
R bietet eine enorme Bandbreite an integrierten statistischen Funktionen und Paketen (Bibliotheken). Insbesondere das Paket ggplot2 gilt als Branchenstandard für die Erstellung optisch ansprechender und komplexer Datenvisualisierungen. Ähnlich wie Python verfügt R über eine große Community, die ständig neue Pakete für spezifische Analyseaufgaben entwickelt.

Programmiersprache SQL

Genau genommen ist SQL keine Programmiersprache im Sinne von Python oder R. Für die Explorative Datenanalyse ist die sogenannte „Abfragesprache“ aber dennoch unerlässlich. Mit SQL können Sie die Informationen aus Ihrer Datenbank abrufen und vorfiltern. Außerdem gibt SQL Ihnen die Möglichkeit, Daten aus verschiedenen Tabellen zu verknüpfen und mit Kurzbefehlen einen ersten Überblick zu bekommen – etwa eine Summe, einen Durchschnitt oder eine einfache Zählung. Mehr zu dem Thema erfahren Sie in unserem Beitrag zum Thema SQL-Injection.

Praktisches Beispiel

Angenommen, Sie sollen Explorative Datenanalyse bei einem mittelständischen Online-Händler nutzen. Ihr Ziel ist es, die Bindung der Kund:innen zu erhöhen. Das Unternehmen verfügt naturgemäß über eine Vielzahl von Informationen. Dazu gehören:
  • Alter der Kund:innen
  • Bestellhäufigkeit und Bestellwert
  • Art der gekauften Produkte
  • Anzahl der Retouren
  • Dauer der Kund:innenbeziehung
  • Letztes Kaufdatum
  • Informationen zur Kündigung (ja/nein)

Schritt 1: Qualitativer und Quantitativer Überblick

Zuerst verschaffen Sie sich ein Bild von den Daten. Woher kommen sie? Sind sie vollständig? Gibt es fehlende Werte oder unrealistische Angaben? Mit Excel könnten Sie hier erste Stichproben nehmen und die Größe des Datensatzes prüfen.

Schritt 2: Prüfung einzelner Variablen

Erstellen Sie ein Histogramm für das Alter der Kund:innen. Sie sehen sofort, ob Ihre Kund:innen eher jung oder alt sind und in welchen Altersgruppen sie liegen. die meisten Kund:innen liegen. Ein Boxplot der Bestellwerte zeigt Ihnen Ausreißer: Gibt es Kund:innen mit extrem hohen oder niedrigen Werten? Welche Produkte dominieren das Kaufverhalten?

Schritt 3: Beziehungen entdecken

In dieser Phase setzen Sie Variablen in Beziehungen. Ein Streudiagramm zwischen „Dauer der Kundenbeziehung“ und „Bestellhäufigkeit“ könnte zeigen, ob langjährige Kund:innen tendenziell häufiger bestellen. Sie könnten auch die „Anzahl der Retouren“ nach „Produktart“ analysieren. So entdecken Sie vielleicht, dass bestimmte Produktkategorien eine unverhältnismäßig hohe Retourenquote aufweisen.

Schritt 4: Hypothesenbildung und Iteration

Aus diesen Beobachtungen können Sie erste Hypothesen ableiten. Etwa: „Kund:innen, die vorrangig Produkte aus dem Premiumsegment kaufen, tätigen zwar weniger Bestellungen pro Jahr, generieren aber einen deutlich höheren Gesamtumsatz und wandern seltener ab.“ Diese Hypothesen können Sie dann weiter präzisieren, mit exakteren Daten untermauern und die entsprechenden Schlüsse ableiten.
Ein Mann sitzt mit Tablet im Gewächshaus

Narrowband-IoT und­ LTE-M:­ Konnektivität im IoT-Umfeld

Ganz gleich, wo Sie sich aufhalten: Mit Narrowband-IoT und LTE-M gelingt Maschinenkommunikation auch unter schwierigen Bedingungen. Und das bei besonders geringem Stromverbrauch und somit langen Akkulaufzeiten.

  • Narrowband-IoT sorgt für beste M2M-Netzabdeckung
  • Über LTE-M lassen sich auch Sprachdaten übertragen
  • Auch in Kellern oder entlegenen Gebieten einsetzbar
Jetzt mehr erfahren

Das Wichtigste zu explorativer Datenanalyse in Kürze

  • Bei der Explorativen Datenanalyse handelt es sich um einen Ansatz der grundlegenden Datenanalyse, die erste Muster, Anomalien und Zusammenhänge erkennen soll.
  • Die Explorative Datenanalyse hilft Ihnen, Ihre Daten gründlich zu prüfen und zu bereinigen, bevor Sie tiefergehende Berechnungen anstellen oder die Daten visualisieren.
  • Eine der bekanntesten Anwendungen für die Explorative Datenanalyse ist Microsoft Excel. Für größere Datenmengen können Sie Business-Intelligence-Tools oder spezielle Statistik-Software nutzen.
  • Mit den Programmiersprachen Python und R können sie sehr individuelle Lösungen bauen. In speziellen Bibliotheken finden Sie bereits vorgefertigten Code, der Ihnen dabei hilft.   
Das könnte Sie auch interessieren:
Security

Diensthandy und DSGVO: Datenschutz bei der privaten Nutzung

Die private Nutzung von Diensthandys bringt für Unternehmen komplexe datenschutzrechtliche Herausforderungen mit sich – gerade auch wegen der Datenschutz-Grundverordnung (DSGVO). Laut einer aktuellen Studie des Digitalverbands Bitkom nutzen 78 Prozent der Beschäftigten ihr Firmen-Smartphone oder -Tablet auch privat. Dabei entstehen rechtliche Grauzonen, die Unternehmen proaktiv klären sollten.

Digitalisierungsberatung

Die Beraterinnen und Berater helfen Ihnen kostenlos und unabhängig bei praktischen Fragen und geben konkrete Tipps. Vereinbaren Sie einen unverbindlichen Termin um Ihr Anliegen zu besprechen.

Termin vereinbaren