Maschinelles Lernen ist auf dem Siegeszug. Speziell für die Erkennung von Mustern in Daten ist Maschinelles Lernen das Mittel der Wahl, konkret zum Beispiel eingesetzt bei der Betrugserkennung, der Bilderkennung, im Bereich der vorausschauenden Maschinenwartung oder der Prognose von Zugverspätungen.

Hinter dem Maschinellen Lernen befindet sich ein ganzer Werkzeugkasten von Algorithmen, die jeweils mit sogenannten Hyperparametern genauer eingestellt werden können. Beim gängigen „k-Nearest Neighbours“ kann so zum Beispiel die Anzahl der in Betracht gezogenen Nachbarn „k“ eingestellt werden, bei einem Neuronalen Netzwerk u.a. die gesamte Architektur des Netzes. Eine wichtige Aufgabe eines Data Scientists besteht darin, für das jeweilige Problem den richtigen Algorithmus zu finden und diesen richtig „einzustellen“. Tatsächlich ist das Aufgabenspektrum aber bedeutend größer: Ein Data Scientist muss die „Business“ Perspektive eines Problems verstehen, sich mit der Datenlage beschäftigen, die Daten geeignet vorverarbeiten und zu einem Modell gelangen, das evaluiert werden kann. Typischerweise ist dies ein zyklischer Prozess, der dem „Cross-industry standard process for data mining“ (CRISP-DM) folgt.

Entsprechend sind Projekte im Umfeld des Maschinellen Lernens aufwändig: sie sind inhaltlich anspruchsvoll und benötigen Zeit von Menschen mit unterschiedlichen Qualifikationen (Business, IT, Data Scientist). Häufig ist zudem zu Beginn unklar, zu welchem Ergebnis man schlussendlich gelangen wird – in diesem Sinne sind die Projekte auch riskant.

Data Science Projekte lassen sich bis heute nicht automatisieren. Wohl aber können gewisse Schritte des Projekts in manchen Fällen automatisiert werden, dies ist, was sich unter dem Konzept des „Automated Machine Learning“ (AutoML) verbirgt. AutoML kann zum Beispiel Unterstützung bei der Auswahl des richtigen Algorithmus bieten. Ein Data Scientist vergleicht üblicherweise die Ergebnisse von vielen Algorithmen auf dem Problem und wählt unter verschiedenen Gesichtspunkten (wie Qualität, Komplexität/Laufzeit, Robustheit) einen Algorithmus aus. Ebenso automatisierbar ist in gewissen Fällen die Einstellung von Hyperparametern: viele Algorithmen können durch Stellschrauben justiert und in ihrer Qualität in Bezug auf das konkrete Problem optimiert werden.

AutoML ist eine Hilfe und Beschleunigung für Data Science Projekte, indem Teile bzw. einzelne Schritte des Projekts automatisiert werden und damit die Produktivität steigt. Eine große Hilfe ist AutoML zum Beispiel bei der Evaluierung von Algorithmen. Insofern haben viele Bibliotheken und Werkzeuge mittlerweile AutoML als Ergänzung in ihren Funktionsumfangmit aufgenommen. Zu nennen sind z. B. Auto-sklearn (im Bereich Python) oder das auf AutoML spezialisierte DataRobot. Nachfolgendes Beispiel aus RapidMiner zeigt, wie man mit Hilfe von Assistenten sehr schnell zu einem Vergleich verschiedener Algorithmen auf einem konkreten Problem gelangt:

Dennoch darf AutoML nicht als universelle Lösung verstanden werden, die Data Science Projekte komplett automatisiert und Data Scientists überflüssig macht.

Wie in anderen Fachgebieten auch, ist Automatisierung vor allem bei technischen Fleißarbeiten besonders nützlich, wo ansonsten hochausgebildete Fachleute vor allem systematisch bestimmte Parametersätze durchprobieren und anschließend die Ergebnisse vergleichen müssten – eine Arbeit die man besser einem Automaten überlässt.

Es bleiben vielfältige Herausforderungen, die nach wie vor von Menschen adressiert werden müssen. Dies beginnt beim eigentlichen Problemverständnis und reicht über vielfältige, meist besonders zeitaufwändige Aufgaben im Zusammenhang mit dem Data Engineering bis zum Deployment. AutoML ist ein hilfreiches Werkzeug, bislang aber nicht der heilige Gral.