Wie Datenanalyse die Sichtweise ändern kann

Geschrieben von Steven Rentzsch am
Redaktioneller Beitrag Lesedauer

Die Open-Source Programmiersprache R ist eine der am meisten genutzten Sprachen im Bereich Datenanalyse und Statistik, häufig sogar lingua franca der Statistik genannt. Durch den direkten Fokus auf Datenanalyse sind vielfältige „out-of-the-box“ Lösungen bei der Analyse, aber vor allem auch bei der Visualisierung von Daten möglich: Klassische statistische Verfahren sind damit genauso leicht zu realisieren wie hochkomplexe Verfahren wie zum Beispiel Deep Learning aus dem Bereich des maschinellen Lernens. R setzt hier einen klaren technischen Standard, was sich nicht nur in der stetig steigenden Nutzerzahl an Universitäten widerspiegelt, sondern auch im stark zunehmenden Engagement von Unternehmen, die R in ihren Produktionsumgebungen, aber auch immer stärker im Controlling einsetzen.

Doch wie hoch ist die Qualität der Ergebnisse und welchen Nutzen kann ich für mein Unternehmen daraus ziehen? Dazu sprechen wir heute mit unserem Spezialisten für Data Science Ulf Köther.

Was ist der Unterschied zwischen der klassischen Datenanalyse und Data Science?

Das sind natürlich eher schwammige Begriffe, aber ich würde hier als erstes sagen, dass Data Science auf der einen Seite zwar ein aktueller Modebegriff ist, dass er aber trotzdem transportiert, dass er die klassische Datenanalyse um viele zusätzliche Felder erweitert, z.B. um profunde Kenntnisse in Programmierung und in der Visualisierung und Darstellung von Ergebnissen. Am besten lässt sich Data Science vielleicht an Drew Conways Venn Diagram (https://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram) deutlich machen.

 

Die klassische Datenanalyse im heutigen Unternehmensalltag würde ich meist als rein beschreibende Statistik verstehen, bei der einfach Unternehmensdaten aufsummiert oder anderweitig beschreibend in Kennzahlen dargestellt werden. Es wird aber nicht oder nur in kleinen Ansätzen darauf aufgebaut und z.B. mit prädiktiven Modellen gearbeitet, d.h. mit Modellen, die zukünftige Entwicklungen voraussagen sollen.

Ist der Aufwand bei einer Datenanalyse gegenüber einer konventionellen Statistik denn höher?

Natürlich, denn man investiert ja auch einfach mehr Zeit dabei, mindestens am Anfang. Das aber wirklich als Aufwand zu bezeichnen, fällt mir persönlich schwer, denn das daraus erwachsende Potential kann immens sein. Zum Beispiel kann ein ordentliches Reporting mit einem ansprechenden Dashboard auf Seiten der Geschäftsführung so viel Zeit sparen, dass ich hier die Kosten-Nutzen-Relation eindeutig zugunsten der Datenanalyse vs. dem „das-haben-wir-schon-immer-so-gemacht“ einschätze.

Häufig ist es ja so, dass in fast allen Unternehmen, und seien sie noch so klein, implizit schon Daten analysiert werden. Das fängt damit an, dass ein Geschäftsführer selbstverständlich seine Personalplanung und seine Produktionskapazitäten anhand seiner bisherigen Zahlen anpasst. Aber eine Datenanalyse im expliziten Sinn kann hier schon ungeheuer hilfreich sein. Denn die erhobenen Werte können nach definierten Regeln auf ihre Plausibilität überprüft werden, sie können entsprechend visualisiert und dargestellt werden.

Der geringfügige Mehraufwand ist also zu rechtfertigen, betrachtet man den mittel- bis langfristigen Mehrwert. Müssen denn dazu neue Daten gesammelt werden oder reichen vorhandene Daten oftmals schon aus?

Das ist nicht pauschal zu beantworten, sondern muss immer auf die explizite Fragestellung bezogen sein. Komplexe prädiktive Modelle können oft die Notwendigkeit nach „mehr“ nach sich ziehen, aber sehr oft ist aus meiner Erfahrung an erster Stelle das Nutzen der bestehenden Daten und vor allem die Verbesserung der Qualität der vorhandenen Daten der Punkt, an dem man viel Potenzial erschließen kann.

Häufig wird ja noch nicht mal aus den bestehenden Daten der Nutzen gezogen, den man darin finden könnte. So habe ich häufig erlebt, dass alleine die Fehlersuche in bestehenden Dokumentationssystemen die Fehler zu Tage fördert, die dann auf systemische Probleme im Unternehmen oder in einzelnen Prozessen aufmerksam machen. Was man nicht weiß, kann man auch nicht anpacken. Solche Fehler sind aber ohne ordentliche Datenanalyse im wortwörtlichen Sinne gar nicht zu entdecken, sondern verstecken sich unter dem Mantel von unreflektiert aufsummierten Kennzahlen. Die Fehlersuche in den eigenen Datenbeständen ist oft noch das ungeliebte Stiefkind.
Aber auch ansprechende Visualisierungen sind häufig noch nicht implementiert, und ein Bild sagt eben oft mehr als viele Worte bzw. in diesem Fall viele Zahlen in einer Tabelle. Automatisierte Reporting-Tools sind etwas, was ich jedem Unternehmen ans Herz legen möchte (Stichwort: Dashboards), denn viele Unternehmen, besonders im Gesundheitswesen, stehen hier noch absolut am Anfang.

Als Gegenbeispiel braucht natürlich ein neuronales Netz viele Datenpunkte zum Lernen, aber selbst dort gibt es durch das Nutzen von vortrainierten Netzen ja Möglichkeiten, diese Menge zu reduzieren.

Ab wann lohnt es sich für einen Unternehmer in qualitative Datenanalysen zu investieren?

Aus meiner Sicht? Natürlich immer! Aber Spaß beiseite. Natürlich muss man immer den Einzelfall abwägen, denn letztlich ist die Aufgabe bzw. die Fragestellung entscheidend, bei der eine quantitative Datenanalyse eingesetzt wird. Hierbei macht es einen sehr großen Unterschied, ob z.B. bestehende BI-Ansätze erweitert oder verändert, ob prädiktive Ansätze zur Veränderung von Ressourcenplanungen angewandt werden sollen, oder ob sogar eine KI-Lösung entwickelt und angewandt werden soll, die dann in industriellen Produktionsprozessen zum Einsatz kommt. Wie Sie sich sicher denken können, sind diese drei Bereiche sehr unterschiedlich in ihren Kostenstrukturen.
Bestehende BI-Lösungen anpassen oder erweitern ist meist nicht teuer, sondern erfordert „nur“ die Zeit eines Datenanalysten, und eventuell etwas IT-Aufwand zur Installation neuer Software, die aber in heutigen Zeiten fast immer open-source und damit kostenlos sein kann. Prädiktive Modelle zur Ressourcenplanung einzusetzen ist hingegen etwas teurer, denn hier erfordert es oft eine kontinuierliche Begleitung auch im laufenden Prozess, entweder intern durch einen Mitarbeiter oder einen externen Spezialisten.

Als Beispiel möchte ich hier das Controlling in einem Krankenhaus anführen. Die Digitalisierung im Gesundheitswesen ist im Wachstum begriffen und immer mehr Häuser führen digitale Patientenakten ein. Das bringt aber auch mit sich, dass im DRG- genau wie im PEPP-System (Anmerkung: Abrechnungssysteme in der Somatik und in der Psychiatrie) immer mehr Daten elektronisch erfasst werden. Ein lohnendes Projekt für die Zukunft könnte sein, aufgrund der automatisierten Analyse von Diagnosen, Medikation, Kennzahlen wie Aufenthaltsdauer, aber perspektivisch auch der inhaltlichen Dokumentation, die Fälle vorauszusagen, die am Ende von den Kostenträgern angezweifelt und dann im Kontakt mit dem Medizinischen Dienst der Krankenkassen verloren, also nicht bezahlt werden, weil die Dokumentation mangelhaft ist. Hier automatische Erkennungstools zu entwickeln, kann viel Zeit sparen, die bares Geld wert ist, auch wenn man einiges an Ressourcen und Geld investieren muss, um ein solches Erkennungssystem erstmal zu entwickeln.

Ein weiteres Beispiel: Wenn ich – nun in wirklich großem Maßstab gedacht – in einer Fertigungsstraße bildgebende Verfahren zur Materialprüfung einsetze und dann eine Deep Learning Anwendung trainiere und nutze, die Fehler erkennen soll bei der Abnahmeprüfung, dann ist das komplex, zeitaufwendig und bedarf beim Umsetzen von F&E zu Produktion fast immer eine parallele neue Fertigungsstraße, um die bestehende Produktion nicht zu beeinträchtigen, während man das neue System auf Herz und Nieren testet. Dass es sich lohnt, sieht man ja daran, dass es gemacht wird, zum Beispiel bei der Produktion von Windkraftanalagen. Aber der Aufwand lohnt sich dann im mittleren Verlauf eindeutig, denn neuronale Netze können wirklich großartig dabei sein, Bildmaterial mit hoher Präzision auszuwerten, wie man z.B. bei der aktuellen Anwendung auf Röntgenbilder zur Erkennung der Pneumonie durch die Arbeitsgruppe von Andrew Ng in Stanford sehen kann (https://stanfordmlgroup.github.io/projects/chexnet/). Die KI kann hier häufig einfach besser „sehen“ als der Mensch. Und das kann unser aller Leben signifikant verbessern.

Kann man dies selber lernen oder müssen dafür Spezialisten eingestellt bzw. beauftragt werden?

Auch hier ist die Komplexität das Entscheidende. Meiner Ansicht nach ist es, auch wenn der extern eingekaufte Spezialist oftmals etwas teurer ist, meist über die Zeit betrachtet günstiger, den Weg über Spezialisten zu gehen. Denn der Zeitaufwand, sich diese Fähigkeiten selber anzueignen, ist immens, und diese Zeit ist eigentlich immer bei der ursprünglichen Aufgabe der jeweiligen Person besser investiert. Ein Buchhalter oder ein Controller sind am besten jetzt in ihren jeweiligen Fachgebieten gefragt, nicht dabei, sich jahrelang vollkommen neues (fachfremdes) Wissen im Detail anzueignen. Das heißt nicht, dass sie nicht in Grundbegriffen fortgebildet werden sollten. So kann es sich auch sehr lohnen, den Berufsgruppen, die mit solchen Data Science Projekten im Unternehmensalltag arbeiten sollen, die wichtigsten Kenntnisse in den dabei genutzten Tools beizubringen. Es wird ihre Produktivität eindeutig erhöhen.

Genauso kann ich daher jedem Geschäftsführer oder Manager ans Herz legen, selbst einen Einführungskurs in Data Science zu belegen, damit man die Begriffe kennt und sich mit dem Spezialisten richtig austauschen kann. Denn wirklicher Nutzen entsteht, wenn ich mit meinem eigenen Fachwissen, was ich aus meinem Bereich in meinem Unternehmen habe, dann mit einem gewissen Vorwissen der Datenanalyse und in einer präzisen Sprache mit dem Spezialisten zusammenarbeiten kann. Denn dieser profitiert entsprechend von ihrem Fachwissen, um die besten Ergebnisse in der aktuellen Fragestellung zu liefern.
In meiner Erfahrung ist es aber häufig so, dass Data Science noch immer das große ominöse Zauberbuch mit sieben Siegeln ist, und dadurch die Erwartung an den Spezialisten einerseits vollkommen überhöht sind, aber auch die Ergebnisse nicht vollständig interpretiert werden können, so dass der Nutzen der ganzen Investition reduziert wird.

Welche Bedeutung haben Datenanalysen und Deep Learning in der Unternehmenswelt von morgen? Haben klassische Statistiken bald ausgedient?

Nein, das glaube ich nicht. Denn ganz konkret braucht man immer ganz normale Kennzahlen, um sein Unternehmen zu steuern. Die Verdichtung von Informationen war schon immer ein wesentlicher Bestandteil der Unternehmensführung. Das sagen wir mal: „Schlichtes“ Reporting wird also auch weiterhin immer vorhanden sein. Aber wie komplex ich die Erstellung der Kennzahlen mache, und vor allem, wie gut die Fehlersuche und die Darstellung ist, wird sich ändern. Bezüglich des Hypes, der gerade bei Deep Learning zu beobachten ist, kann ich nur sagen, dass es eine Technologie mit wirklich unglaublichen, aber nicht übernatürlichen Möglichkeiten darstellt: Sie sind vielseitig einsetzbar, aber ich sehe sie als Ergänzung bisheriger Möglichkeiten, um ein Unternehmen erfolgreicher zu machen oder um Risiken zu minimieren. Zur Veranschaulichung kann man Gartner’s Hype Cycle anführen (www.gartner.com/doc/3770467/hype-cycle-artificial-intelligence).

 

Der Begriff Deep Learning ist hier innerhalb der nächsten zwei bis fünf Jahre auf dem absoluten Peak of Inflated Expectations angesiedelt, also dem Höhepunkt des Hype-Zyklus, was nahelegt, dass hier in der Breite der Unternehmen noch keine reale Einschätzung darüber existiert, was solche Verfahren können, und was sie nicht können. Es wird sich aber zurecht ruckeln…

Ihr Fazit?

Es bleibt spannend, und es wird noch spannender. Die Anwendungsfelder von Data Science sind genauso vielfältig wie die Business Cases der Unternehmen selbst. Es ist schön, wenn man sieht, wie das, was ich am liebsten mache, in so vielen Bereichen Einzug erhält. Damit sieht man auch, dass besonders durch kleine Neuerungen in Unternehmen, also z.B. wie schon angeführt das Reporting zu verändern, Fehler zu suchen etc., die Sicht auf das eigene Unternehmen viel klarer und präziser werden kann. Manchmal ist es gar nicht die riesige KI-Lösung ist, die den klaren Vorteil im Geschäftsleben bedeutet!

Teilen auf