Data-Mining-Tools im Vergleich: So gelingt Datenanalyse optimal

Digitales Business

Digitales Business

Datum 08.03.2021
Lesezeit 5 Min.

Data-Mining-Tools im Vergleich: So gelingt Datenanalyse optimal

Zu unserem Alltag gehören schier unendliche Mengen an Daten: Jeder Schritt im Netz hinterlässt beispielsweise Spuren. Aus solchen Informationen könnten Rückschlüsse auf Online-Verkäufe gezogen werden. Allerdings sind Daten wertlos, wenn sie nicht interpretiert werden können. Bei großen Datenmengen kommt „Data Mining“ ins Spiel.

Sie möchten wissen, warum ein Kaufabschluss fehlschlägt, wie sich ein Wertpapier entwickelt oder wann Sie Auslastungsspitzen für Ihr Leistungsangebot erwarten sollten? Dann sind Big Data und Data Mining interessante Themen für Sie. Je mehr Daten verfügbar sind, desto wichtiger ist es, diese systematisch auszuwerten, damit sie sinnvoll interpretiert werden können.

 

Was ist eigentlich Data Mining?


Der englischstämmige Begriff Data Mining bedeutet wörtlich übersetzt soviel wie das schürfen oder fördern von Daten. Es gibt kein deutsches Wort dafür, so dass sich die englische Bezeichnung durchgesetzt hat. Genau genommen wäre jedoch „Datenschürfen“ eine durchaus korrekte Übersetzung: Denn im Data Mining geht es um das Auffinden von Verbindungen und Mustern. Aus vorhandenen Daten werden dabei neue Informationen gewonnen.

Data Mining kommt insbesondere im Bezug auf „Big Data“ zum Einsatz. Denn je unübersichtlicher und größer der Datenbestand ist, desto wichtiger ist die systematische Analyse. In großen Datensammlungen können Muster, Trends und Zusammenhänge nur mit Hilfe von statistischen Methoden und Algorithmen gefunden werden.

Ein Beispiel liefert das digitale Marketing: Wo überall sollte ich meine Werbung platzieren? Wie erreiche ich meine Zielgruppe punktgenau? Welche Daten sollte ich erheben, um eine valide Entscheidungsgrundlage zu erhalten? Dr. Tim Wiegels ist Head of Data bei FREE NOW (zuvor mytaxi). Er sagt: Als Data Engineer ist man gleichzeitig auch Produktmanager und sollte wissen, wie man Produkte optimal platziert und präsentiert. Wie das gelingt und wie es in Deutschland im Bereich Mobilität weitergehen kann und sollte, verrät er im „Digitale Vorreiter”-Podcast #75 mit Christoph Burseg:

Maschinenlernen und künstliche Intelligenz sind thematisch eng verwandt mit Data Mining. Im Unterschied geht es allerdings bei Data Mining darum, neue Muster zu identifizieren, während Machine Learning und künstliche Intelligenz vor allem darauf ausgerichtet sind, bekannte Muster zu lernen und wiederkehrend darauf zu reagieren.

Symbolbild für verschiedene Anwendungen des Data Mining

Fehleranalysen, homogene Cluster, Wenn-Dann-Beziehungen oder Umsatzprognosen? Data Mining kann in all diesen Fragen unterstützen und Zusammenhänge in großen Datenmengen auffinden.

Welches Verfahren ist geeignet: Die Datenlage entscheidet

Als Voraussetzung für die Wahl des richtigen Data-Mining-Tools muss klar sein, welche Daten vorliegen und welche Erkenntnisse gesucht werden. Dann kann ein geeignetes Verfahren und die passende Software ausgewählt werden.

Die eingesetzten Methoden und Algorithmen in den Data-Mining-Verfahren stammen häufig aus der Statistik.

Diese Aufgaben kann Data Mining übernehmen:

  • Klassifikation: Objekte sollen definierten Gruppen zugeordnet werden, beispielsweise bestimmten Pflanzengattungen oder Farben. Als Verfahren eignet sich die sogenannte Entscheidungsbaum-Analyse. Dabei werden Datenbanken in Teilmengen sortiert, in denen sich die Datensätze ähneln.
  • Abweichungen: Identifiziert Objekte, die sich von verwandten Objekten unterscheiden. So lassen sich Ursachen für Fehler finden.
  • Cluster (Gruppierung): Findet Ähnlichkeiten, die sich wiederholen und bildet daraus Datengruppen. Im Unterschied zur „Klassifikation“ gibt es keine vorgegebenen Gruppen, in die die Datensätze einsortiert werden. Cluster können beispielsweise in Kundendatenbanken gefunden werden und lukrative Kunden herausfiltern: „Alter >50, Bestellfrequenz 1-2x im Jahr, Warenwert <50 Euro“ könnte ein Cluster sein, „Alter 31-40, Bestellfrequenz 1-2x im Monat, Warenwert 100-150“ könnte ein anderes sein.
  • Assoziation: Deckt Korrelationen zwischen unabhängigen Datensätzen auf, die in keinem offensichtlichen Zusammenhang stehen und dennoch vermehrt gemeinsam auftreten. Einfache Beispiele können als „Wenn – Dann“-Zusammenhang formuliert werden.
  • Regression: Untersucht das Verhältnis zwischen einer abhängigen Information und unabhängigen Variablen. Das können beispielsweise Verkaufszahlen sein, die mit Preis und Vertriebskanal in Verbindung gebracht werden. Aus solchen Daten werden Prognosen über die abhängige Information (Verkaufszahlen) hergeleitet.
  • Predictive Analytics: Hier geht es um Vorhersagen über Zukunftstrends. Data-Mining arbeitet hier mit einer Variablen (Prädikator) und kann dann Modelle für verschiedene Szenarien errechnen.

Data-Mining-Tools im Überblick: Die wichtigsten Anbieter

Daten, die in Ihrem Unternehmen, der Produktion und den Verkaufsprozessen gesammelt werden können, gehören zu Ihrem wertvollsten Kapital. Data-Mining-Tools machen dieses Kapital nutzbar: Verwenden Sie systematische Analysen und Prognosen für Ihre Strategieentwicklung und erschließen Sie beispielsweise neue Märkte.

Es gibt eine Reihe interessanter Data-Mining-Tools, darunter sowohl kostenpflichtige Programme wie auch kostenlose Open-Source-Software. Hier finden Sie einige relevante Anbieter:

KNIME

KNIME steht für „Konstanz Information Miner“ und wurde 2004 an der Universität Konstanz entwickelt. Es handelt sich um eine freie Open-Source-Software, die alle Komponenten für umfassendes Data Mining, Datenmodellierung und Entwicklungsprognosen enthält. Weitere Informationen und die Software zum Download finden Sie hier unter knime.com.

Qlik

QlikTech wurde 1993 in Schweden gegründet. Seit 2010 wird das börsennotierte Unternehmen am NASDAQ gehandelt und hat seinen Hauptsitz in den USA. Das Data-Mining-Tool Qlik ist ebenfalls in allen Dimensionen skalierbar. Es wird in fast allen Branchen eingesetzt, ob nun Gesundheitswesen, Finanzdienstleistungen, Automobilindustrie oder Energieversorger. Qlik kann für einen begrenzten Zeitraum kostenfrei getestet werden.

RapidMiner

Gegründet 2001 in Dortmund, ist RapidMiner heute ein internationaler Anbieter mit Niederlassungen in Boston, London und Budapest. Die Open-Source-Datenanalyse- und Prognose-Tools werden nach Angaben des Unternehmens weltweit von mehr als 40.000 Anwendern aus den verschiedensten Branchen genutzt. Programmierkenntnisse sind zur Anwendung kaum notwendig. RapidMiner kann kostenlos in begrenztem Umfang getestet werden.

Teradata

Das Unternehmen Teradata gibt es bereits seit 1979. Gegründet an der Caltech (California Institute of Technology), ist Teradata heute in mehr als 75 Ländern vertreten. Das Unternehmen bietet ebenfalls unter dem Namen Teradata ein sogenanntes Datenbankmanagementsystem (DBMS) mit umfangreichen Optionen zur Datenanalyse. Das Programm ist sehr gut skalierbar für große Datenmengen und auch hinsichtlich der Anwenderlizenzen. Das leistungsstarke Data-Mining-Tool wird unter vor allem eingesetzt in Handel, Telekommunikation und der Finanzbranche. Auch Kunden aus dem produzierenden Gewerbe mit hohen Stückzahlen und der Automobilindustrie nutzen die Software. Teradata bietet unter anderem ein Pay-as-you-go-Bezahlmodell an.

Weitere Data-Mining-Anbieter

Wir können nicht alle relevanten Anbieter im Detail beschreiben, daher seien hier noch einige weitere erwähnt:

  • Oracle Business Intelligence (Open Source)
  • SAS Statistical Analysis System
  • Board
  • Dundas

 

Arbeiten Sie bereits mit Data Mining? Mit welchen Tools und für welche Fragestellungen? Wir sind gespannt auf Ihre Erfahrungen. 

 


Ihre Digitalisierungs-Berater:innen für den Mittelstand

Sie haben Fragen zur Digitalisierung? Unser Expert:innen-Team hilft Ihnen kostenlos
und unverbindlich im Chat (Mo.-Fr. 8-20 Uhr). Oder am Telefon unter 0800 5054512

Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Facebook Twitter WhatsApp LinkedIn Xing E-Mail