Sittipol - stock.adobe.com

Die 4 wichtigsten Simulationsmodelle in der Datenanalyse

Die Kombination unterschiedlicher Simulationsmodelle mit prädiktiver Analytik hilft Unternehmen, Zusammenhänge zu verstehen und Entscheidungen mit belastbaren Daten zu treffen.

Mit den Fortschritten in der prädiktiven Analytik und der datengestützten Entscheidungsfindung gewinnen Computersimulationen und Simulationsmodelle zunehmend an Bedeutung.

Die meisten Techniken der Datenanalytik stammen ursprünglich aus Glücksspielen. Ein Spieler möchte beispielsweise die Wahrscheinlichkeit ermitteln, mit drei sechsseitigen Würfeln eine Gesamtsumme von 14 zu würfeln – die Grundlage für Binomial- oder Normalverteilungen. Oder er möchte die Quoten beim Roulette oder Poker kennen.

Solche Spiele sind im Wesentlichen Simulationen. Die Realität ist allerdings etwas vielschichtiger - und das Ziel des Datenanalysten ist es, ein vereinfachtes Modell von komplexeren Systemen zu erstellen, um deren Verhalten besser zu verstehen.

Heute sind Simulationen die Ausführung von Modellen auf Computern – und in vielen Bereichen zum einzigen praktikablen Weg geworden, um komplexe reale Probleme mit vielen interagierenden Komponenten zu lösen. Dies gilt insbesondere für Fachgebiete wie Biologie, Physik, Ökonomie und ähnliche Bereiche.

Für Datenanalyse-Experten ist es daher essenziell, die wichtigsten Arten von Simulationsmodellen zu verstehen:

  • Monte-Carlo-Simulation
  • Agentenbasierte Modellierung (Agent-based Modeling)
  • Diskrete Ereignissimulation (Discrete Event Simulation)
  • Systemdynamikmodellierung (System Dynamic Modeling)

Diese Arten von Simulationsmodellen bilden die Grundlage vieler Spiele, Verfahren zur visuellen und akustischen Synthese, Algorithmen des maschinellen Lernens, Verarbeitungskerne sowie von Regelungs- und Steuerungssystemen. Simulationen ermöglichen es, Systeme virtuell zu testen, bevor sich eine Organisation auf eine konkrete Entscheidung oder ein bestimmtes Design festlegt.

Auf einen Blick

Mit dem Fortschritt prädiktiver Analytik gewinnen Computersimulationen stark an Bedeutung. Zentrale Ansätze wie Monte-Carlo-Simulation, agentenbasierte Modellierung, diskrete Ereignissimulation und Systemdynamik erlauben es, komplexe reale Systeme mit vielen Wechselwirkungen zu modellieren, zu testen und fundierte Entscheidungen vorzubereiten.

Monte-Carlo-Simulation

In vielen Simulationen ist es schwierig zu beurteilen, ob die gewählten Variablen und deren Wahrscheinlichkeitsverteilungen ein reales System tatsächlich angemessen abbilden. In solchen Fällen kommt die Monte-Carlo-Methode zum Einsatz. Sie verzichtet auf eine rein analytische Berechnung und nähert sich einem Problem stattdessen durch eine große Zahl zufälliger Simulationen.

Der Name Monte Carlo leitet sich vom Roulette ab, einem Glücksspiel, das in den Casinos von Monte Carlo berühmt wurde. Das Rouletterad ist in 37 Segmente unterteilt, nummeriert von 0 bis 36, darunter 18 rote, 18 schwarze und ein grünes Segment (die Null). Daraus ergibt sich die Wahrscheinlichkeitsverteilung:  Die Wahrscheinlichkeit für Rot oder Schwarz beträgt jeweils 48,65 Prozent, die für die Null 2,7 Prozent. Diese drei Wahrscheinlichkeiten repräsentieren die Verteilung.

Die Monte-Carlo-Methode besteht in diesem Beispiel darin, das Drehen des Rouletterads nicht einmalig, sondern sehr häufig zu simulieren. Jeder einzelne Dreh liefert einen bestimmten, aber zufälligen Ausgang. Die Simulation wiederholt diesen Vorgang tausend- oder zehntausendfach. Aus der Häufigkeit der Ergebnisse lässt sich empirisch eine Verteilung bestimmen. Im Idealfall nähert sich diese beobachtete Verteilung den theoretischen Wahrscheinlichkeiten an – umgesetzt in Häufigkeiten also bei 1.000 Durchläufen etwa 486,5 rote, 486,5 schwarze und 27 grüne Ergebnisse.

Weichen die beobachteten Häufigkeiten deutlich von den Erwartungen ab, ist dies ein Hinweis, dass das zugrunde liegende Modell unvollständig ist oder zusätzliche Einflussfaktoren existieren. Konkret kann in dem Beispiel eine Abweichung etwa durch die Manipulation des Rouletterads zustande gekommen sein.

Die Wiederholung von Zufallsprozessen macht die Monte-Carlo-Simulation so wertvoll: Sie erlaubt es, Modelle zu überprüfen, ohne deren Verhalten vollständig analytisch beschreiben zu müssen.

Ein klassisches Anwendungsbeispiel der Monte-Carlo-Methode ist die Berechnung der Kreiszahl Pi. Dabei werden zufällige Punkte in einer Fläche erzeugt und statistisch ausgewertet, um Pi näherungsweise zu bestimmen. Solche Verfahren können Millionen von Zufallswerten erfordern, was zugleich eine typische Einschränkung der Monte-Carlo-Methode zeigt: Sie ist vergleichsweise rechenintensiv und nicht besonders effizient, liefert aber auch dort Ergebnisse, wo andere Verfahren scheitern.

Häufig wird die Monte-Carlo-Methode mit bayesianischen Ansätzen kombiniert, bei denen vorhandenes Wissen in die Simulation einfließt. Politische Analysten nutzen solche Verfahren zum Beispiel, um aus Umfragedaten viele mögliche Wahlausgänge zu simulieren. Auch in der Meteorologie kommen Monte-Carlo-Simulationen zum Einsatz – beispielsweise bei der Ensemblemodellierung zur Vorhersage der möglichen Bahn eines Orkans.

Agentenbasierte Modellierung

Einen ganz anderen Ansatz verfolgt die agentenbasierte Modellierung. Wer einen Vogelschwarm beim Abflug beobachtet, sieht zunächst scheinbar ungeordnetes Verhalten, das sich innerhalb kürzester Zeit zu einer klaren, synchronisierten Formation verdichtet. Dabei steuert kein einzelner Vogel die Bewegung des Schwarms. Stattdessen folgt jedes Tier einfachen lokalen Regeln: Es hält Abstand zu Hindernissen, orientiert sich an den nächstgelegenen Artgenossen und passt seine Position kontinuierlich an. Aus diesen lokalen Entscheidungen entsteht ein geordnetes Gesamtverhalten – ein Phänomen, das als emergentes Verhalten bezeichnet wird.

In der agentenbasierten Modellierung werden handelnde Individuen als Agenten bezeichnet. Jeder Agent ist autonom, folgt einer begrenzten Menge von Regeln und reagiert ausschließlich auf seine unmittelbare Umgebung oder auf andere Agenten. Die Gesamtstruktur des Systems ergibt sich nicht aus einer zentralen Steuerung, sondern aus der Vielzahl dieser lokalen Interaktionen. Die systematische Beschreibung und Simulation solcher Regeln wird als agentenbasierte Modellierung (Agent-Based Modeling, ABM) bezeichnet.

Agentensysteme zählen zu den frühen Forschungsfeldern der Kybernetik und wurden bereits in den 1960er-Jahren untersucht. Bis heute sind sie ein wichtiges Werkzeug, insbesondere dort, wo zentrale Modelle an ihre Grenzen stoßen.

Agentensysteme zählen zu den frühen Forschungsfeldern der Kybernetik und wurden bereits in den 1960er-Jahren untersucht. Bis heute sind sie ein wichtiges Werkzeug, insbesondere dort, wo zentrale Modelle an ihre Grenzen stoßen. Ein klassisches Beispiel ist der Straßenverkehr. Der Verkehrsfluss auf einer stark befahrenen Autobahn lässt sich nur schwer durch mathematische Gleichungen beschreiben. Stattdessen modellieren viele Simulationen jedes Fahrzeug als autonomen Agenten, der einfachen Regeln folgt – zum Beispiel Beschleunigen, Bremsen oder Spurwechseln – ergänzt durch zufällige Störungen. Aus dem Zusammenspiel vieler Fahrzeuge ergeben sich dann Staus, Wellenbewegungen oder flüssiger Verkehr.

Agentensysteme werden auch bei IoT-Geräten und Drohnen eingesetzt. Diese Geräte sind nicht darauf angewiesen, Aktivitäten über einen zentralen Prozessor zu koordinieren – was durch komplexe Verarbeitung Latenz und Engpässe erzeugen würde. Stattdessen reagiert jeder Knoten primär auf seine unmittelbaren Nachbarn. Eine Kommunikation mit einer zentralen Instanz erfolgt nur bei widersprüchlichen Informationen oder im Fehlerfall, etwa wenn ein Gerät in einen Sicherheitsmodus wechselt, weil keine Verbindung mehr besteht.

Das letzte Interaktionsszenario ist die Kehrseite eines Agentensystems. Ein Ausfall oder eine Störung zwischen einer kleinen Anzahl von Agenten kann sich schnell ausbreiten. In komplexen Infrastrukturen wie Stromnetzen kann dies zu großflächigen Ausfällen führen, deren Ursachen im Nachhinein schwer zu rekonstruieren sind. Beim Wiederanlauf des Systems kann das auslösende Problem bereits verschwunden sein, weil es auf einem kurzzeitigen emergenten Verhalten beruhte.

Agentenbasierte Modellierung ermöglicht es, solche Systeme vorab zu untersuchen, wobei Software-Objekte Hardware-Objekte ersetzen. Besonders geeignet ist dieser Ansatz für biologische Systeme. In der Zellbiologie etwa beeinflussen Zellen vor allem ihre direkten Nachbarn, häufig auch Zellen unterschiedlicher Typen. Genau diese lokalen Wechselwirkungen lassen sich mit agentenbasierten Modellen realistisch abbilden und analysieren.

Diskrete Ereignissimulation

Eng verwandt mit agentenbasierten Modellen sind zelluläre Automaten – ein Konzept, das durch John Horton Conways Game of Life in den 1970er-Jahren bekannt wurde und später durch Stephen Wolframs Mathematica weiter popularisiert wurde.

Zelluläre Automaten bestehen aus einem Gitter von Zellen, deren Zustand sich nach festen Regeln verändert. Solche Modelle bilden die theoretische Grundlage für zahlreiche transformationelle Filter und Rechenkerne, wie sie heute etwa in der Bildverarbeitung und im maschinellen Lernen eingesetzt werden.

Zelluläre Automaten sind zugleich ein typisches Beispiel für diskrete Ereignissimulationen (Discrete Event Simulation, DES). Im Gegensatz zu kontinuierlichen Simulationen wird die Zeit hier nicht als stetiger Verlauf betrachtet, sondern in klar abgegrenzte Schritte unterteilt. Der Zustand des Systems zu einem bestimmten Zeitpunkt ergibt sich jeweils aus dem Zustand der vorhergehenden Zeitschritte und den definierten Übergangsregeln.

Ein zentrales Merkmal diskreter Ereignissimulationen ist, dass sich stabile oder quasi-stabile Strukturen aus dem Modell herausbilden können, ohne dass diese explizit programmiert wurden. Ordnung entsteht nicht durch zentrale Steuerung, sondern durch wiederholte lokale Zustandsänderungen, die sich über viele Zeitschritte hinweg kumulieren.

Datenanalysten verwenden diskrete Ereignissimulationen in Bereichen, in denen die räumliche Nachbarschaft den Zustand eines Systems bestimmt. Dies ist etwa bei gitterbasierten Modellen der Fall. Dabei wird der betrachtete Raum in viele kleine, miteinander verbundene Flächen – ein sogenanntes Mesh (Netz) – zerlegt, wobei jede Zelle einen lokalen Zustand repräsentiert und direkt mit ihren Nachbarzellen interagiert. In solchen Szenarien beeinflussen benachbarte Zellen oder Elemente einander direkt, während weiter entfernte Bereiche zunächst unbeeinflusst bleiben.

Bei der Arbeit mit Netzmodellen gilt: Je feiner das zur Beschreibung verwendete Mesh, desto genauer lassen sich lokale Effekte abbilden. Gleichzeitig müssen Modellkorrekturen die Geometrie und Topologie des Mesh berücksichtigen. Dreieckige oder sechseckige Meshes liefern dabei häufig realistischere Ergebnisse als rechteckige Gitter, da sie Nachbarschaften gleichmäßiger abbilden.

Systemdynamikmodellierung

Die Systemdynamikmodellierung (System Dynamic Modeling) ist ein weiterer verbreiteter Simulationsansatz. In einer idealen mathematischen Welt lassen sich komplexe Systeme durch voneinander unabhängige, lineare Funktionen beschreiben. In Wirklichkeit sind die meisten Variablen, die Systeme beschreiben, miteinander gekoppelt: Die Veränderung einer Größe wirkt sich unmittelbar auf andere Größen aus. Solche Systeme sind nichtlinear und werden häufig durch Differentialgleichungen beschrieben.

Mit Computern lassen sich solche Gleichungen numerisch mithilfe von Differenzengleichungen lösen. Differenzengleichungen verwenden diskrete Mathematik, um spezifische Lösungen zu finden, die dann durch den Aufbau von Lösungsensembles verallgemeinert werden können.

Ein Beispiel für ein solches System sind Räuber-Beute-Modelle. Im einfachsten Fall gibt es eine bestimmte Menge von Beutetieren; deren Anzahl nimmt zu, bis aufgrund der erhöhten Nachfrage die Nahrung zur Neige geht. An diesem Punkt sinkt die Beutepopulation mangels Nahrung auf ein Niveau, auf dem ihre Nahrungsversorgung sich wieder erholen kann. Fügt man jedoch einen Räuber hinzu, werden die Dinge komplexer. Die Beute ist nun an zwei Variablen gekoppelt: ihre Nahrungsversorgung und die Anzahl der Räuber, welche die Beutetiere töten.

Die Analyse solcher Dynamiken erfolgt unter anderem mit Konzepten aus der Stabilitätstheorie, etwa durch Lyapunov-Exponenten, die beschreiben, wie empfindlich ein System auf kleine Störungen reagiert. Diese Methoden werden nicht nur in der Populationsdynamik, sondern auch in der Strömungsmechanik, der Klimamodellierung oder der Aerodynamik eingesetzt.

Die Systemdynamikmodellierung beschäftigt sich gezielt mit solchen komplexen, rückgekoppelten und potenziell chaotischen Systemen. Sie kombiniert zeitdiskrete Simulationen mit numerischen Lösungsverfahren, um das langfristige Verhalten von Systemen zu untersuchen, die sich nicht auf einfache Ursache-Wirkungs-Beziehungen reduzieren lassen.

Über Lyapunov-Lösungen hinaus wird Systemdynamikmodellierung auch bei Partikelsimulationen hoher Dichte verwendet. Ein Beispiel ist die Modellierung von Galaxien, bei der Sterne als idealisierte Partikel betrachtet werden, die sich unter dem Einfluss gravitativer Kräfte bewegen. Aus den lokalen Wechselwirkungen vieler Einzelobjekte ergeben sich globale Strukturen, die häufig fraktale Eigenschaften aufweisen. Solche Strukturen sind typisch für chaotische Systeme und zeichnen sich durch Selbstähnlichkeit, rekursive Muster und emergentes Verhalten aus.

Erfahren Sie mehr über Datenanalyse