Durch leuchtende Fäden verbundene Lichtpunkte in verschiedenen Farben, dazwischen Zahlenkolonnen
Cloud & Hosting

Data-Mining-Tools im Vergleich: So gelingt Datenanalyse optimal

Zu unserem Alltag gehören schier unendliche Mengen an Daten: Jeder Schritt im Netz hinterlässt beispielsweise Spuren. Aus solchen Informationen könnten Rückschlüsse für Online-Verkäufe, den Webshop allgemein oder die Reichweite innerhalb der Zielgruppe gezogen werden. Allerdings sind Daten wertlos, wenn sie nicht zeitnah und korrekt interpretiert werden können. Bei großen Datenmengen kommt „Data Mining“ ins Spiel. Doch was steckt eigentlich hinter dem Begriff und welche Tools eignen sich für welchen Zweck?

Sie möchten wissen, warum ein Kaufabschluss fehlschlägt, wie sich ein Wertpapier entwickelt oder wann Sie Auslastungsspitzen für Ihr Leistungsangebot erwarten sollten? Dann sind Big Data und Data Mining interessante Themen für Sie. Je mehr Daten verfügbar sind, desto wichtiger ist es, diese systematisch auszuwerten, damit sie sinnvoll interpretiert werden können. Einen Überblick zu diesem Thema lesen Sie im Feolgenden.

Inhaltsverzeichnis

Was ist eigentlich Data Mining?

Big Data und kein Ende: Die aktuelle weltweite Datenproduktion

Schätzungen zufolge werden weltweit derzeit etwa 40 Zettabyte (40 Milliarden Terabyte) pro Jahr an Daten produziert. Dies entspräche der Datenmenge, die auf etwa 800 Milliarden BluRay-Disks passt. Übereinander gestapelt würden diese bis in eine Höhe von 960.000 km reichen – das entspricht in etwa dem Zweieinhalbfachen der Entfernung zwischen Erde und Mond.

Der englischstämmige Begriff Data Mining bedeutet wörtlich übersetzt soviel wie das schürfen oder fördern von Daten. Es gibt kein deutsches Wort dafür, so dass sich die englische Bezeichnung durchgesetzt hat. Genau genommen wäre jedoch "Datenschürfen" eine durchaus korrekte Übersetzung: Denn im Data Mining geht es um das Auffinden von Verbindungen und Mustern. Aus vorhandenen Daten werden dabei neue Informationen gewonnen.
Data Mining kommt insbesondere im Bezug auf "Big Data" zum Einsatz. Denn je unübersichtlicher und größer der Bestand ist, desto wichtiger ist die systematische Datenanalyse. In großen Datensammlungen können Muster, Trends und Zusammenhänge nur mit Hilfe von statistischen Methoden und Algorithmen gefunden werden.
Maschinenlernen und künstliche Intelligenz sind thematisch eng verwandt mit Data Mining. Im Unterschied geht es allerdings bei Data Mining darum, neue Muster zu identifizieren, während Machine Learning und künstliche Intelligenz vor allem darauf ausgerichtet sind, bekannte Muster zu lernen und wiederkehrend darauf zu reagieren.
Mann steht inmitten einer Server-Racklandschaft in einem Rechenzentrum

Vodafone Total Cloud Professional Services

Wir beraten Sie in jeder Phase Ihres Cloud-Projekts und erarbeiten mit Ihnen, welche IT-Ressourcen Sie haben – und welche Sie brauchen. Zusammen entwerfen wir in unserer Roadmap das Design und den Aufbau Ihrer optimalen IT-Landschaft.

  • Effiziente Beratung auf den Punkt
  • Alles aus einer Hand

Welches Verfahren ist geeignet: Die Datenlage entscheidet

Als Voraussetzung für die Wahl des richtigen Data-Mining-Tools muss klar sein, welche Daten vorliegen und welche Erkenntnisse gesucht werden. Dann kann ein geeignetes Verfahren und die passende Software ausgewählt werden.
Die eingesetzten Methoden und Algorithmen in den Data-Mining-Verfahren stammen häufig aus der Statistik.
Diese Aufgaben kann Data Mining übernehmen:
  • Klassifikation: Objekte sollen definierten Gruppen zugeordnet werden, beispielsweise bestimmten Pflanzengattungen oder Farben. Als Verfahren eignet sich die sogenannte Entscheidungsbaum-Analyse. Dabei werden Datenbanken in Teilmengen sortiert, in denen sich die Datensätze ähneln.
  • Abweichungen: Identifiziert Objekte, die sich von verwandten Objekten unterscheiden. So lassen sich Ursachen für Fehler finden.
  • Cluster (Gruppierung): Findet Ähnlichkeiten, die sich wiederholen und bildet daraus Datengruppen. Im Unterschied zur "Klassifikation" gibt es keine vorgegebenen Gruppen, in die die Datensätze einsortiert werden. Cluster können beispielsweise in Kundendatenbanken gefunden werden und lukrative Kunden herausfiltern: "Alter >50, Bestellfrequenz 1-2x im Jahr, Warenwert <50 Euro" könnte ein Cluster sein, "Alter 31-40, Bestellfrequenz 1-2x im Monat, Warenwert 100-150" könnte ein anderes sein.
  • Assoziation: Deckt Korrelationen zwischen unabhängigen Datensätzen auf, die in keinem offensichtlichen Zusammenhang stehen und dennoch vermehrt gemeinsam auftreten. Einfache Beispiele können als "Wenn – Dann"-Zusammenhang formuliert werden.
  • Regression: Untersucht das Verhältnis zwischen einer abhängigen Information und unabhängigen Variablen. Das können beispielsweise Verkaufszahlen sein, die mit Preis und Vertriebskanal in Verbindung gebracht werden. Aus solchen Daten werden Prognosen über die abhängige Information (Verkaufszahlen) hergeleitet.
  • Predictive Analytics: Hier geht es um Vorhersagen über Zukunftstrends. Data-Mining arbeitet hier mit einer Variablen (Prädikator) und kann dann Modelle für verschiedene Szenarien errechnen.

Data-Mining-Tools im Überblick: Die wichtigsten Anbieter

Daten, die in Ihrem Unternehmen, der Produktion und den Verkaufsprozessen gesammelt werden können, gehören zu Ihrem wertvollsten Kapital. Data-Mining-Tools machen dieses Kapital nutzbar: Verwenden Sie systematische Analysen und Prognosen für Ihre Strategieentwicklung und erschließen Sie beispielsweise neue Märkte.
Es gibt eine Reihe interessanter Data-Mining-Tools, darunter sowohl kostenpflichtige Programme wie auch kostenlose Open-Source-Software. Hier finden Sie einige relevante Anbieter:

KNIME

KNIME steht für "Konstanz Information Miner" und wurde 2004 an der Universität Konstanz entwickelt. Es handelt sich um eine freie Open-Source-Software, die alle Komponenten für umfassendes Data Mining, Datenmodellierung und Entwicklungsprognosen enthält. Weitere Informationen und die Software zum Download finden Sie hier unter knime.com.

Qlik

QlikTech wurde 1993 in Schweden gegründet. Seit 2010 wird das börsennotierte Unternehmen am NASDAQ gehandelt und hat seinen Hauptsitz in den USA. Das Data-Mining-Tool Qlik ist ebenfalls in allen Dimensionen skalierbar. Es wird in fast allen Branchen eingesetzt, ob nun Gesundheitswesen, Finanzdienstleistungen, Automobilindustrie oder Energieversorger. Qlik kann für einen begrenzten Zeitraum kostenfrei getestet werden.

RapidMiner

Gegründet 2001 in Dortmund, ist RapidMiner heute ein internationaler Anbieter mit Niederlassungen in Boston, London und Budapest. Die Open-Source-Datenanalyse- und Prognose-Tools werden nach Angaben des Unternehmens weltweit von mehr als 40.000 Anwendern aus den verschiedensten Branchen genutzt. Programmierkenntnisse sind zur Anwendung kaum notwendig. RapidMiner kann kostenlos in begrenztem Umfang getestet werden.

Teradata

Das Unternehmen Teradata gibt es bereits seit 1979. Gegründet an der Caltech (California Institute of Technology), ist Teradata heute in mehr als 75 Ländern vertreten. Das Unternehmen bietet ebenfalls unter dem Namen Teradata ein sogenanntes Datenbankmanagementsystem (DBMS) mit umfangreichen Optionen zur Datenanalyse. Das Programm ist sehr gut skalierbar für große Datenmengen und auch hinsichtlich der Anwenderlizenzen. Das leistungsstarke Data-Mining-Tool wird unter vor allem eingesetzt in Handel, Telekommunikation und der Finanzbranche. Auch Kunden aus dem produzierenden Gewerbe mit hohen Stückzahlen und der Automobilindustrie nutzen die Software. Teradata bietet unter anderem ein Pay-as-you-go-Bezahlmodell an.

Weitere Data-Mining-Anbieter

Wir können nicht alle relevanten Anbieter im Detail beschreiben, daher seien hier noch einige weitere erwähnt:
  • Oracle Business Intelligence (Open Source)
  • SAS Statistical Analysis System
  • Board
  • Dundas

Data-Mining-Tools: Das Wichtigste im Überblick

  • Data Mining bedeutet wörtlich übersetzt „Datenschürfen“. Es handelt sich um eine Methode, mit der aus riesigen Datenmengen verwertbare Anteile extrahiert werden.
  • Je nach Datenlage kann Data Mining zur Klassifikation, Abweichungsbestimmung, Clusterung, Assoziation oder für Regressions- und vorausschauende Analysen zum Einsatz kommen.
  • KNIME ist eine Open-Source-Software für Data Mining, Modellierung und Entwicklungsprognosen.
  • Qlik wird häufig im Gesundheits- und Finanzwesen, in der Automobilindustrie und bei Energieversorgern eingesetzt.
  • RapidMiner basiert auf dem Open-Source-Ansatz und erfordert keine bis kaum Programmierkenntnisse für die Anwendung.
  • Teradata gibt es in mehr als 75 Ländern und das System ist besonders gut skalierbar. Wesentliche Kunden sind im Handel, in der Telekommunikation und in der Finanzbranche angesiedelt.
  • Weitere Data-Mining-Tools auf dem Markt sind Oracle Business Intelligence, SAS, Board und Dundas.
Das könnte Sie auch interessieren:
Unified Communication

Kollaborativer und effizienter arbeiten mit Microsoft Teams und Copilot

Ganze 60% mehr Produktivität dank KI-basierter Assistenten wie Copilot: Alexander Eggers von Microsoft spricht mit Christoph Burseg über das volle Potenzial moderner Arbeitsmethoden und Zusammenarbeit.

Alexander Eggers vor rotem Hintergrund in Podcastfolge 250
43:37
Telefon

Digitalisierungs-Beratung

Sie haben Fragen zur Digitalisierung? Jetzt kostenlos beraten lassen. Montag-Freitag von 8-20 Uhr, außer an Feiertagen.

0800 505 4512

Hilfe und Service

Montag bis Freitag von 8 bis 20 Uhr, außer an Feiertagen.

0800 172 1234
Online
Vor Ort