Data Science, beziehungsweise Data & Analytics sind ein weites Feld. Data Science wird gerne als „sexiest job of the 21st century“ bezeichnet. Diejenigen, welche die Daten aufbereiten und auswerten, können ihre Arbeit aber nicht ohne die Data Engineers machen. Das sind die Menschen, die dafür sorgen dass die Daten überhaupt erst dort ankommen wo sie hingehören. Das ist ein weitaus weniger glamouröser Job. Aber ohne Data Engineering im Vorfeld, stabile Datenstrecken, saubere Daten die immer da sind wo sie hingehören, ist Data Science überhaupt nicht möglich. Das wird von vielen Unternehmen völlig unterschätzt und auch oft vergessen.
Im wissenschaftlichen Umfeld mag es anders aussehen. Aber wer eine Karriere in diesem Bereich anstrebt, sollte sich mit den folgenden Themen und Kenntnissen beschäftigen, um sich inhaltlich gut aufzustellen. Dieser Artikel stellt einen allgemeinen Überblick zur Verfügung. Einzelne Themen werde ich zukünftig in eigenen Artikeln weiter vertiefen.
Methoden zur Dimensionsreduktion
Kurz gesagt geht es bei der Dimensionsreduktion darum einen Datensatz so umzuwandeln, dass er weniger komplex ist also weniger Dimensionen hat. Er soll dadurch zum einen einfacher verständlich, aber auch einfacher analysierbar werden. Die Reduktion der Dimensionen muss dabei sicherstellen, dass der Datensatz weiterhin möglichst ähnliche Informationen liefert. Die Analyseergebnisse sollten durch die Dimensionsreduktion nicht verfälscht werden, das heißt die Relevanz der Daten muss auch danach noch gegeben sein. Durch die Dimensionsreduktion können Zusammenhänge beziehungsweise Unterschiede zwischen verschiedenen Gruppen viel einfacher sichtbar gemacht werden.
Eine gute Dimensionreduktion trennt die für eine Analyse unwichtigen Daten von den wichtigen Daten und eliminiert diese aus dem Datensatz. Dadurch wird seine Komplexität reduziert und es wird für Mensch und Algorithmus einfacher ihn zu analysieren. Auch eine gute Datenvisualisierung stellt eine Dimensionsreduktion dar. Wir konzentrieren uns dadurch auf die Variablen, von denen wir wissen beziehungsweise vermuten, dass sie am meisten zur Aufklärung des zu untersuchenden Sachverhalts beitragen.
Aus Sicht der Statistik und Datenanalyse versucht die Dimensionsreduktion die Anzahl der Zufallsvariablen in einem Datensatz zu reduzieren. Dafür gibt es eine Vielzahl von verschiedenen Methoden die hier in keiner Reihenfolge und ohne Anspruch auf Vollständigkeit aufgeführt werden.
- Einfache Datenaggregationen (Summen, Mittelwerte etc.) zur Datensatzbeschreibung und Generierung erster Erkenntnisse, eine nicht zu unterschätzende Methode
- Missing Value Analysen
- Hauptkomponentenanalysen
- Faktorenanalysen
- Clusteranalysen
- Regressionsanalysen
- Random Forest Analysen
- Decision Trees
- Kanonische Korrelationsanalysen
- Low Variance Analysen
- Multidimensionale Skalierung
- Korrespondenzanalysen
Datenvisualisierung
Da Daten immer mehr und auch schneller zu den verarbeitenden Personen kommen, ist es um so wichtiger, diese Datenmengen auf eine intelligente Art und Weise verstehbar und interpretierbar zu machen. Dies geschieht zum einen durch die bereits erwähnte Dimensionsreduktion. Eine von vielen Unternehmen unterschätzte Kunst ist es, die Daten einfach und klar darzustellen um grundlegende Erkenntnisse zu erhalten, Zusammenhänge zu verstehen sowie Zeitverläufe und Trends erkennen zu können. In der täglichen Zusammenarbeit führt dies zu einem verbesserten Informationsaustausch zwischen unterschiedlichen Unternehmensbereichen.
Entscheidungsträgern auf allen Ebenen ermöglicht die Datenvisualisierung Informationen schnell und gezielt zu erfassen. Im Idealfall ermöglichen es interaktive Diagramme gezielt eigene, tiefergehende Analysen durchzuführen. Letztendlich ist das Ziel, auf Businessdaten basierende belastbare Entscheidungen zu treffen. Richtig aufbereitet können Datenvisualisierungen auch von Nicht-Fachleuten gelesen und interpretiert werden.
Eine gut gemachte Datenvisualisierung übersetzt Daten in eine leichter zu verstehende Form, entfernt für den Nutzer irrelevante Informationen und macht die wichtigen und nützlichen Informationen sichtbar. Im Idealfall erzählt die Datenvisualisierung auch eine Geschichte, die den Betrachter interessiert und mitnimmt und ihm Handlungsoptionen aufzeigt.
Zu den wichtigsten Business-Tools zur Datenvisualisierung gehören Tableau, PowerBI sowie Qlik Sense. Diese Tools bieten ein umfangreiches Portfolio um Daten im Unternehmensumfeld professionell zu analysieren und zu visualisieren. Selbstverständlich gehören auch Excel und Powerpoint zu den sehr häufig verwendeten Visualisierungsinstrumenten. Office-Lizenzen sind in den meisten Unternehmen vorhanden und es kommt natürlich das zum Einsatz, was kostengünstig und vorhanden ist. Im Big Data Umfeld kommt man aber meistens um die zuerst genannten Business-Tools nicht herum.
Methoden zur Klassifizierung von Daten
Im Zeiten immer größer werdender Datenmengen kommt der Klassifizierung dieser Daten eine immer größere Wichtigkeit zu. Vereinfacht gesagt geht es hier um Methoden, Prozesse und Tools, welche dabei helfen Daten in verschiedene Kategorien zu organisieren. Dies vereinfacht vor allem die spätere Verwendung der Daten, weil es die Daten leichter auffindbar macht und auch deren Abruf vereinfacht.
Üblicherweise werden für die Klassifizierung von Daten Metadaten verwendet, die über Tagging-Prozesse an die ursprünglichen Daten angespielt werden. Neben der besseren Auffindbarkeit von Daten trägt die Klassifizierung auch zur Datensicherheit in Unternehmen bei, in dem beispielsweise Daten in öffentlich, eingeschränkte und private Daten eingeordnet werden und dementsprechend unterschiedliche Prüf- und Schutzmethoden auf diese angewendet werden.
Im unternehmerischen Kontext wird man versuchen, die Datenklassifizierung so weit es geht zu automatisieren. Neben der Verwendung von regulären Ausdrücken sowie der Anwendung von Machine Learning Algorithmen gibt es eine Vielzahl von kommerziellen Anbietern, die Lösungen für diesen Bereich anbieten.
Regressionsmodelle
Die lineare Regressionsanalyse ist eines der am häufigsten im Marketing verwendete statistische Analyseverfahren. Vereinfacht gesagt wird mit einer Regression untersucht, wie gut die Werte einer Variablen mit Hilfe von einer oder mehreren anderen Variablen vorhergesagt werden können. Wir betrachten den Zusammenhang der Variablen mit Hilfe einer Vorhersagefunktion. Je stärker der Zusammenhang zwischen Variablen ist, desto besser kann diese Variable anhand der anderen Variablen vorhergesagt werden.
Bei einer einfachen linearen Regression betrachte ich nur eine Vorhersagevariable, den Prädiktor. Bei der multiplen linearen Regression hingegen werden mehrere Einflußfaktoren berücksichtigt und meine Analyse wird gegebenenfalls genauer, da ich mehr Varianz der abhängigen Variable, des Kriteriums, aufklären kann.
Regressionsanalysen werden genutzt um unterschiedliche Kriterien von Marketingkampagnen zu untersuchen. Beispielsweise kann analysiert werden, inwieweit sich verschiedene Altersgruppen in ihrem Online-Einkaufsverhalten unterscheiden, wie viel Werbemittelkontakte für eine optimale Werbewirkung notwendig sind oder inwieweit zusätzliche Abverkäufe durch eine Erhöhung oder Verschiebung des Mediabudgets möglich sind.
Diskriminanzanalysen
Die Diskriminanzanalyse wird immer dann eingesetzt, wenn es um die Untersuchung von Gruppenunterschieden geht. Die Hauptfragen sind in der Regel, ob die unterschiedlichen Gruppen sich signifikant voneinander unterscheiden und welche Gruppenmerkmale für diese Unterscheidungen geeignet beziehungsweise ungeeignet sind. Diskriminanzanalysen starten mit der Definition der Gruppen. Die Gruppendefinition kann schon durch das zu lösende Business-Problem vorgegeben sein (beispielsweise die Analyse von unterschiedlichen Automodellen). Es kann aber auch vorkommen, dass die Gruppen durch ein anderes statistisches Verfahren, wie die Clusteranalyse, vorgegeben werden.
Im Marketing wird die Diskriminanzanalyse beispielsweise eingesetzt um unterschiedliche Käufergruppen zu definieren (beispielsweise Viel-, Wenig- und Nichtkäufer oder sparsame Kunden versus luxusaffine Käufer). Das Grundanlegen ist es, diese Gruppen durch die Kombination mehrer unabhängiger Variablen optimal voneinander zu trennen, so dass sie möglichst unterschiedlich sind und diese Unterschiede auch gut erklärt werden.
Clusteranalysen
Die Clusteranalyse ist ein strukturentdeckendes Verfahren. Das bedeutet, dass sie dazu eingesetzt wird, Gruppen in Datensätzen zu identifizieren. Dies tut sie anhand der Eigenschaften der zu untersuchenden Objekte. Die im vorherigen Absatz erklärte Diskriminanzanalyse setzt bestehende Gruppen voraus. Dies tut die Clusteranalyse nicht, an ihrem Ende steht die Erstellung der Gruppen.
Bei der Clusteranalyse werden alle Eigenschaften der zu untersuchenden Objekte zur Gruppeneinteilung eingesetzt. Anhand von Distanz- bzw. Ähnlichkeitsmaßen werden die Verwandtschaften bzw. die Unterschiede der Gruppen untersucht. Ziel der Analyse ist es, dass die am Ende ermittelten Gruppen maximal unterschiedlich voneinander sind.
Im Marketing kommt die Clusteranalyse vornehmlich dann zum Einsatz, wenn es um die Segmentierung von Kundengruppen geht. Dies können soziodemografische Faktoren sein, aber auch psychologische Einstellungen oder das konkrete Kaufverhalten. Die Bildung von trennscharfen Gruppen ermöglicht im Allgemeinen ein besseres Kundenverständnis sowie eine zielgerichtete Kundenansprache sowie die Minimierung von Streuverlusten bei der Konzeption von Media- und Marketingkampagnen.
Entwicklung von Datentaxonomien
Datentaxonomien gehören zu den Bereichen, die in der Data Science oft übersehen werden, obwohl sie von zentraler Wichtigkeit sind. Ohne saubere und strukturierte Daten sind alle darauf folgenden Analyeschritte relativ wertlos. Unter der Entwicklung von Datentaxonomien versteht man die Klassifizierung der Daten in Kategorien und Unterkategorien. Dies ermöglicht eine einheitliche Sichtweise auf den eigenen Datenbestand. Dadurch lassen sich die Zusammenhänge zwischen verschiedenen Datenpunkten viel einfacher nachvollziehen.
Eine Datentaxonomie schafft idealerweise eine einheitliche Terminologie über die verschiedenen Systeme, welche zur Datenverarbeitung eingesetzt werden, hinweg. Sie zwingt zur Klarheit bei der Unterscheidung der verwendeten Kategorien. Das führt in den meisten Fällen zu einem besseren Verständnis des eigenen Datenbestandes. Wie viele der anderen hier geschilderten Verfahren, dient eine Taxonomie auch dazu, die Komplexität bei der Betrachtung der Daten zu reduzieren. Sie ermöglicht oft überhaupt erst aggregierte Aussagen zu treffen. Kurz gesagt hilft eine Taxonomie dabei, Daten so zu kategorisieren, dass sie möglichst effizient genutzt werden können. Ziel ist es, dass alles Daten in der betreffenden Organisation aufeinander abgestimmt sind.
Relevante Datenquellen und Datenstrukturen kennen
Um gute und sinnvolle Analysen durchführen zu können, ist es wichtig sich in der eigenen Datenlandschaft gut auszukennen. Zum einen sollte man die eigenen Daten, die im Unternehmen entstehen, gut kennen. Als marktorientiertes Unternehmen sollte man auch die Daten von Kunden und Interessenten im Griff haben. Schließlich ist es auch wichtig, die in der eigenen Branche zum Benchmarking und zur Erfolgsmessung üblichen Standard-KPIs zu kennen und anwenden zu können.
Die Anforderungen und die Komplexität der Daten werden sich hier, je nach Branchen und Anwendungsfällen, sehr stark unterscheiden. In einer Mediaagentur werde ich beispielsweise nicht nur mit den Daten der Medien und Vermarkter zu tun haben, sondern auch mit den Datenlandschaften der verschiedenen Kunden. Im Beratungsumfeld sind also die Anforderungen an diese Skills sehr hoch, da es notwendig ist, sich permanent in neue Datenstrukturen einzuarbeiten.
Bewege ich mich aber nur in einer bestimmten Branche, wie beispielsweise in der Logistikbranche oder der Konsumgüterindustrie, dann sind die zu untersuchenden Daten voraussichtlich insgesamt weniger komplex, da sich die Daten und die Anwendungsfälle hier leichter abgrenzen lassen. Das heißt aber nicht, dass die zum Tragen kommenden statistischen Verfahren weniger komplex wären, ganz im Gegenteil.
Die wichtigsten IT-Skills im Bereich Data Science
Es gibt eine Vielzahl von Programmiersprachen und Anwendungen im Data Science & Analytics Umfeld haben sich aber die folgenden Skills als besonders relevant herauskristallisiert.
Python
Python ist eine quelloffene Hochsprache, die einen modernen Ansatz für objektorientierte Programmierung bietet. Sie bietet eine Vielzahl von mathematischen, statistischen und wissenschaftlichen Funktionen. Darübe hinaus gibt es viele freie Bibliotheken die sich für die eigenen Projekte verwenden lassen.
Einer der Hauptgründe für die weite Verbreitung von Python in Wirtschaft, Wissenschaft und Forschung die Benutzerfreundlichkeit, gepaart mit einer einfachen Syntax. Diese erlaubt es auch Personen ohne technischen Hintergrund sich relativ schnell in die Sprache einzuarbeiten.
Die wichtigsten Python-Bibliotheken:
- Numpy: Mathematische Funktionen für die Verarbeitung von Vektoren, Matrizen und allgemein großen mehrdimensionalen Arrays.
- Pandas: Eine der beliebtesten Bibliotheken für die Datenverarbeitung und Datenanalyse. Insbesondere enthält sie Datenstrukturen und Operatoren für den Zugriff auf numerische Tabellen und Zeitreihen.
- Matplotlib erlaubt es, mathematische Darstellungen aller Art zu generieren.
- SciPy ist sowohl eine Open Source Softwareumgebung als auch eine Programmbibliothek für wissenschaftliches Rechnen und Visualisierung sowie anderen damit zusammenhängenden Tätigkeiten und steht in engem Zusammenhang mit Numpy.
- Scikit-learn ist eine weit verbreitete Programmbibliothek zum maschinellen Lernen. Sie basiert wiederum auf SciPy und NumPy.
R
R ist eine freie Programmiersprache für statistische Berechnungen und zur Erstellung von Grafiken. Im Vergleich zu Python ist sie stärker auf die mathematischen und statistischen Funktionalitäten spezialisiert. Sie wird hauptsächlich dazu genutzt um statistische Analysen durchzuführen und Datenvisualisierungen zu entwickeln. Die statistischen Funktionen von R erleichtern auch das Bereinigen, Importieren und Analysieren von Daten. Viele Data Science Teams sind zweisprachig unterwegs und nutzen sowohl R als auch Python, also beispielsweise Python für die allgemeinen Teile eines Programms und R für die mathematisch/statistischen Komponenten. Für Python, aber auch für andere Hochsprachen, gibt es eine Vielzahl von Schnittstellen zu R, um die R Komponenten im eigenen Programmcode zu verwenden. Mit Shiny ist es möglich, direkt aus R Webanwendungen zu entwickeln.
MySQL
Bei MySQL handelt es sich um ein weit verbreitetes und quelloffenens relationales Datenbanksystem, welches mit der Sprache SQL (Structured Query Language) verwendet wird. Diese Technologie ist aus mehreren Gründen sehr wichtig. Zum einen ist sie sehr weit verbreitet, insbesondere wird sie häufig bei Webservern eingesetzt um dynamische Webseiten zu generieren. Außerdem ist die Basistechnologie quelloffen und kostenlos, was auch zur häufigen Anwendung geführt hat. Schließlich ist SQL auch relativ einfach zu erlernen und ermöglicht es uns, auch ohne tiefergehende Informatik-Kenntnisse Daten strukturiert in einer Datenbank abzulegen und grundlegende Analysen durchzuführen. Um komplexere Analysen zu machen, kommen dann die oben genannten Programmiersprachen und Bibliotheken zum Einsatz, die selbstverständlich alle direkt auf MySQL Datenbanken zugreifen können.
Excel
Eine Übersicht über aktuelle Data Science Tool wäre natürlich ohne Microsoft Excel unvollständig. Die Gründe dafür sind vielfältig:
- Excel bietet im Formelbereich eine Vielzahl von mächtigen statistischen Funktionen.
- Was die zweidimensionale Darstellung von Daten angeht, ist Excel weithin ungeschlagen. Kein Wunder, hat Microsoft doch schon seit den 80ern hier das Quasi-Monopol. Inzwischen gibt es auch andere Office-Varianten die aufgeholt haben, doch meines Erachtens setzt Microsoft hier weiterhin die Benchmark.
- Es ist im Office-Bereich auf den meisten Rechnern installiert und damit ein Quasi-Standard. Standards sind nicht zu unterschätzen. Viele Menschen die sich nie an eine Datenbank trauen würden, benutzen Excel und können darin Daten verarbeiten. Excel stellt also im Unternehmenskontext eine wichtige Datenquelle dar.
- Mit VBA ist eine sehr umfangreiche Skriptsprache vorhanden, die es ermöglicht auch komplexe statistische Anwendungen im Excel/Office-Umfeld zu entwickeln und ausführen zu lassen.
- Python und Excel können gut miteinander. Mit PyXLL existiert ein Excel-Addin mit dem es möglich ist, Excel als Benutzeroberfläche für Python-Anwendungen zu benutzen. Anders herum gibt es eine Vielzahl von Möglichkeiten mit Excel-Dateien in Python zu arbeiten. Eine große Auswahl findet sich beispielsweise hier.