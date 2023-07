Der Aufbau einer Entwicklungs- und Testumgebung für KI-Modelle erfordert großes Fachwissen. Wie schon bei der Datenvorbereitung, die im ersten Teil dieser dreiteiligen Artikelserie erläutert wurde, benötigen Data Scientists auch für das Erstellen von Algorithmen zahlreiche Tools und Softwarekomponenten. Alle Softwarekomponenten auszuwählen, bereitzustellen und zu warten ist zeitaufwendig, zumal je nach Anforderungen häufige Updates anfallen. Dabei geht es hier um Aufgaben mit geringem Mehrwert für das Unternehmen.

Ein Beispiel: Data Scientists arbeiten in der Regel mit Open-Source-Lösungen. Auf Dauer kann deren Verwaltung jedoch kompliziert werden, denn es erscheinen ständig neue Lösungen und Versionen, was zu Kompatibilitätsproblemen führen kann. Daher müssen Vorgängerversionen der Frameworks wegen der Kompatibilität mit bereits eingesetzten Modellen aufbewahrt werden. Bei gemanagten Diensten wird diese komplexe Verwaltung größtenteils vom Cloud-Anbieter übernommen.

Ein Open-Source-Ökosystem für Data Scientists

Data Scientists nutzen insbesondere verschiedene Typen von Notebooks zur Entwicklung von Algorithmen – gängige Notebook-Typen sind zum Beispiel Jupyter und VS Code. Hinzu kommen die Tools und Frameworks für das Training und die Bereitstellung von Modellen wie PyTorch, TensorFlow und Scikit-Learn. Dabei steht Open Source hoch im Kurs: Bei der jährlichen Umfrage von Anaconda zu den von Data Scientists genutzten Tools gaben zuletzt 87 Prozent der Befragten an, dass ihr Unternehmen Open-Source-Lösungen verwendet. Es spricht daher vieles für einen Cloud-Anbieter, der diese Lösungen in Form von gemanagten Diensten bereitstellt.

Die Vorteile von Anwendungen as a Service dürften inzwischen allgemein bekannt sein: IT-Lösungen stehen binnen Minuten zur Verfügung, neue Nutzerinnen und Nutzer lassen sich schnell einrichten, denn der Cloud-Anbieter selbst integriert sie in seine IT-Infrastruktur. Im Falle von Notebooks heißt das: CPU- und GPU-Ressourcen stehen unmittelbar zur Verfügung. Eine Konfigurationsphase ist nicht nötig. Data Scientists wählen einfach und direkt die Instanz für das Training aus, ohne auf ein Drittsystem zuzugreifen.

Anschließend lernen sie ihr Modell in der Regel auf diesem Notebook an und nutzen dabei die Vorzüge der kompletten Integration des Tools in die Infrastruktur. Sobald der Algorithmus die gewünschten Ergebnisse liefert, beginnen sie mit der Produktion des Modells in Form eines Docker-Softwarecontainers. Das Modell wird von nun an regelmäßig mit neuen Daten trainiert. Sollte seine Wirksamkeit nachlassen, wird es angepasst.

Mit entsprechenden Cloud-Lösungen können Modelle über ein Docker-Image angelernt werden. Wie bei der Bereitstellung von Notebooks bietet auch hier ein Cloud-Ansatz den Vorteil, dass sich Trainings praktisch sofort starten lassen, ohne dass sich die Data Scientists um die Orchestrierung von Rechenressourcen kümmern müssen. Der Übergang von der Umgebung des Data Scientists zur Testumgebung wird einfacher, genau wie das Programmieren eines erneuten Trainings des Modells über einen bestimmten Zeitraum hinweg, von einigen Stunden bis zu mehreren Tagen.