Vom Spielbrett auf das Gefechtsfeld – Künstliche Intelligenz in komplexen Gefechtssituationen

Erstveröffentlichung:
Europäische Sicherheit und Technik 10/2021
CPM Sonderausgabe Landstreitkräfte 12/2021

Letzte Aktualisierung:
04.04.2022

Autoren:
Jan-Wilhelm Brendecke, Thomas Doll, Daniel Kallfass

Der militärische Führungsprozess

Der militärische Führungsprozess ist ein ständig wiederkehrender Zyklus, der sich in die Phasen „Lagefeststellung und Kontrolle“, „Entscheidungsfindung“, „Planung“, „Befehlsgebung“ und erneut „Lagefeststellung und Kontrolle“ gliedert. Auch wenn der Prozess als solcher eine geistige Tätigkeit beschreibt, wurden zur Unterstützung schon immer vielfältige Hilfsmittel eingesetzt. In der Vergangenheit waren das z. B. Feindlagetabellen, Kampfkraftübersichten oder folienbasierte Lagekarten. Heute sind es eigens auf den Führungsprozess abgestimmte Führungsinformationssysteme, die den militärischen Führer unterstützen.

In einer modernen, vernetzten Operationsführung stehen damit idealtypisch in Echtzeit alle im Netzwerk verfügbaren Lage- und Systeminformationen, bis hin zum Status der logistischen Versorgbarkeit eigener Truppenteile, übersichtlich aufbereitet zur Verfügung. Abgeleitet aus den zivilwirtschaftlichen Überlegungen zur Industrie 4.0 setzt sich zudem auch in der militärischen Planung die Idee des Digitalen Zwillings[1] immer stärker durch. Sämtliche Entitäten auf dem Gefechtsfeld, mit all Ihren Eigenschaften und Zuständen wären damit zukünftig als digitales Abbild auf einer Lagekarte 4.0 verfügbar und könnten in vielfältiger Form für Berechnungen und Analysen genutzt werden.

Idealtypisch ist der Ansatz deshalb, weil aktuell an vielen Stellen die erforderliche Technik zur Erfassung und Übertragung der plattforminternen Systemzustände noch fehlen. Eine Aufgabe die im Rahmen der voranschreitenden Digitalisierung und auch mit der ohnehin erforderlichen Erneuerung von Altsystemen noch zu bewältigen ist. Im Ergebnis entsteht sukzessive ein ‚Internet of Military Things (IoMT)‘, in dem jede Plattform mit jeder anderen intelligent koordinieren und Information austauschen kann, ohne dass ein Mensch eingreifen muss.


[1] Ein digitaler Zwilling ist eine digitale Abbildung eines Objekts oder Prozesses mit allen relevanten Eigenschaften und Parametern aus der realen Welt in der digitalen Welt.

Die Phase der Entscheidungsfindung: Die wichtigste Aufgabe eines militärischen Führers ist es, Entscheidungen zu treffen und durch eine klar formulierte Absicht und eindeutige Aufträge den nachgeordneten Ebenen erreichbare Ziele zu setzen. Die Entscheidungsfindung als „Kern des Führungsprozesses“ gliedert sich in die drei aufeinander folgenden Abschnitte „Auswertung des Auftrages“, „Beurteilung der Lage“ und „Entschluss“.

Die Beurteilung der Lage dient der Vorbereitung von Entscheidungen und führt rechtzeitig zu einem logisch abgeleiteten und zweckmäßigen Entschluss. Hier werden neben den militärischen auch alle weiteren relevanten Einflussfaktoren (bspw. politische, wirtschaftliche, soziale und infrastrukturelle Aspekte, sowie solche des Informationsumfeldes) betrachtet und beurteilt. Daraus werden Folgerungen für die Möglichkeiten des eigenen Handelns entwickelt und dann auf ihre Vor- und Nachteile hin untersucht.

Nicht zuletzt aufgrund der Komplexität und Zeitkritikalität wird insbesondere bei der Beurteilung der Lage erhebliches Potenzial für den Einsatz von KI-Systemen gesehen. Die im Artikel beschriebenen Mechanismen fokussieren daher ausschließlich auf diesen Prozessschritt, wenn auch zunächst nur in vereinfachter Form.

Insbesondere für die Phase der Entscheidungsfindung bietet die Lagekarte 4.0 erhebliches Potenzial, um bei Handlungsbedarf in der laufenden Operation eigene Handlungsoptionen rasch und unkompliziert identifizieren und qualitativ bewerten zu können. Geeignete Analysesimulationssysteme bieten bereits heute vielfältige Möglichkeiten, die sich, kombiniert mit den Methoden und Verfahren der KI, zukünftig noch deutlich ausweiten lassen. Gemeint sind hier vor allem Anwendungen aus dem Bereich des Maschinellen Lernens oder genauer des Deep Learning[2].


[2] Deep Learning bezeichnet eine Methode des maschinellen Lernens, die künstliche neuronale Netze mit zahlreichen Zwischenschichten zwischen Eingabeschicht und Ausgabeschicht einsetzt und dadurch eine umfangreiche innere Struktur herausbildet und zur Bearbeitung komplexerer Problemstellungen eingesetzt werden kann.

Vom Spielbrett auf das Gefechtsfeld

Die grundlegenden Ideen, Verfahren und Technologien zum Training einer Künstlichen Intelligenz sind frei zugänglich. Ein Großteil der Entwicklungen in diesem Bereich findet öffentlich statt und wird über das Internet verfügbar gemacht. Insbesondere Spiele ‚Mensch gegen Computer‘ werden gerne genutzt, um den Fortschritt in der KI-Entwicklung zu demonstrieren. Die Bandbreite reicht von klassischen Brettspielen wie Schach und Go bis hin zu modernen Computerspielen wie Quake und Dota. Für die vorliegende Studie sind insbesondere die Errungenschaften um das Echtzeit-Strategie-Spiel StarCraft von großem Interesse.

StarCraft ist ein Echtzeit-Strategiespiel, bei dem die Spieler ihre Einheiten mit verschiedenen Fähigkeiten produzieren und steuern müssen. Dabei sieht ein Spieler immer nur das, was in Sichtweite seiner eigenen Einheiten ist. Ziel des Spiels ist es, mit begrenzten Ressourcen, den bestmöglichen Einsatz verschiedener Einheiten mit unterschiedlichen Fähigkeiten bei unvollständigen Informationen zu koordinieren, um den Gegner zu besiegen. Zwischen dem Computerspiel StarCraft und einer militärischen Gefechtsfeldsimulation sind bei abstrakter Betrachtung durchaus Parallelen erkennbar.

Der Google Tochter DeepMind ist es gelungen, einen KI-Agenten (AlphaStar) zu trainieren, der das Spiel auf Meisterniveau beherrscht. Menschliche Spieler haben gegen den KI-Agenten keine reale Chance mehr und werden reihenweise geschlagen. AlphaStar und vergleichbare Systeme verwenden die KI-Methode des Reinforcement Learning, welche auch für die hier beschriebene Studie genutzt wird.

Die Studie „Reinforcement Learning für komplexe Gefechtssituationen“ verfolgt das Ziel, die im Spielebereich erfolgreich angewandten Trainingsverfahren zu adaptieren und auf die Lageentwicklung in einer Gefechtsfeldsimulation zu übertragen. Aus technischer Sicht ist hierzu ein KI-Agent so zu trainieren, dass er für unterschiedlichste Lagen und Geländearten Handlungsmöglichkeiten entwickeln und hinsichtlich ihrer Erfolgswahrscheinlichkeit bewerten kann. Die berechneten Lösungen sollen der Entscheidungsunterstützung des militärischen Führers dienen.

Der Ansatz ist deshalb so anspruchsvoll, weil die gesamte Bandbreite des verfügbaren Informationsraums berücksichtigt werden muss. Selbst bei einer rein militärischen Betrachtung betrifft dies zumindest die Lage der eigenen Kräfte, die des Gegners, die Geofaktoren wie beispielsweise Klima, Wetter oder Geländegegebenheiten, die zivile Lage und die Lage im Informationsumfeld. Die zu berücksichtigende Informationsbandbreite und Informationsdichte stellen damit erhebliche Anforderungen an das zugrundeliegende Simulationssystem.

Zudem muss davon ausgegangen werden, dass das Lagebild niemals vollständig ist. Das Fehlen einer allumfassenden Aufklärung sowie technische Defekte, Sabotagemaßnahmen, Cyberattacken sowie Tarn-, Täusch- und Störmaßnahmen des Gegners führen dazu, dass das Lagebild immer lückenhaft und unvollständig sein wird. Das KI-System muss folglich mit Unsicherheiten umgehen können und dennoch zu belastbaren Ergebnissen kommen. Die Methode des Reinforcement Learning bietet hier sehr gute Voraussetzungen. Die in der zivilen KI-Entwicklung erzielten Erfolge z. B. auch beim Kartenspiel Poker liefern hier deutliche Hinweise. Die beim Pokern übliche Kombination von Zufall und verdeckter Information lässt sich im weiteren Sinne auch auf taktische Überlegungen übertragen.

Ziel der Studie ist es nicht, eine allumfassende KI zu schaffen, die den Führungsprozess komplett übernimmt und den Menschen überflüssig macht. Zum einen ist dies mit der verfügbaren Technologie nicht realisierbar und zum anderen widerspricht ein solcher Ansatz auch dem ethisch-moralischen Selbstverständnis militärischer Führungsverantwortung. Die Verfügungsgewalt des Menschen muss immer gegeben sein. „Der Mensch entscheidet – Die Maschine unterstützt!“

Reinforcement Learning für komplexe Gefechtssituationen

Reinforcement Learning bzw. Bestärkendes Lernen ist eine zunehmend beliebter werdende Methode des Maschinellen Lernens, in der ein KI-Agent trainiert wird, um komplexe Steuerungsprobleme in einer Simulationsumgebung zu „erlernen“. Dem KI-Agenten wird hierzu lediglich eine Belohnungsfunktion vorgegeben.

Im Gegensatz zu den anderen Deep Learning Methoden, dem Supervised und dem Unsupervised Learning, werden hierbei zunächst keine Trainingsdaten benötigt. Das Reinforcement Learning erzeugt die Trainingsdaten quasi selbst, indem der KI-Agent mittels Trial-and-Error in der Trainingsumgebung agiert. Bei fehlerhaftem Ausgang werden die Abweichungen zur richtigen Lösung berechnet und in die Bewertungsmatrix des KI-Agenten zurückgeführt. Über unzählige Simulationsläufe nähert sich das Verhalten des Agenten dann langsam, für jede erdenkliche Variante, der optimalen Lösung an. Das Reinforcement Learning erfordert hierbei immer einen Dreiklang von:

  1. Einer Simulationsumgebung, in der der KI-Agent trainiert wird,
  2. Einem Reinforcement Learning Framework, in dem der Agent konfiguriert wird,
  3. Einer Hardwareumgebung, auf der die notwendigen Berechnungen durchgeführt werden.

Mit Zunahme der Komplexität von neuronalen Netzen werden immer leistungsfähigere KI-Agenten trainiert, die Lösungsstrategien für immer umfangreichere Problemstellungen berechnen können.

Das Training des KI-Agenten wird ohne jegliches Vorwissen gestartet. Es werden weder Aufzeichnungen von Ausbildungssimulationen verwendet, noch werden regelbasierte Einsatzgrundsätze in den Agenten einprogrammiert. Hierdurch soll sichergestellt werden, dass das Training völlig frei stattfinden kann und nicht bereits vorab ungewollt in eine bestimmte Richtung beeinflusst wird. Verhaltensregeln entstehen ausschließlich über die oben beschriebenen Mechanismen durch Trial-and-Error in der Simulationsumgebung.

Der zu trainierende Agent agiert auf Verbandsebene. In der laufenden Operation weist er rundenbasiert den unterstellten Kompanien Aktionen zu und weist bei Bedarf zusätzlich verfügbare Kampfunterstützungsmittel an. Ganz im Sinne des Prinzips Führen mit Auftrag werden ihm von der übergeordneten Führung keine dezidierten Vorgaben gemacht. Stattdessen wird lediglich ein Ziel vorgegeben, z. B. Nehmen eines Schlüsselgeländes oder Halten eines Raums.

Die vom KI-Agenten errechneten Aktionen werden anschließend auf Einheitsebene und darunter regelbasiert algorithmisch abgearbeitet. Hier arbeitet die Simulation also zunächst noch klassisch, ohne KI-Unterstützung. Die eigentliche Berechnung des Bekämpfungsvorganges findet auf der untersten Ebene bestehend aus Plattformen, Effektoren und Sensoren statt. Auch wenn der Fokus für den KI-Einsatz derzeit auf der Verbandsebene liegt, ist nicht ausgeschlossen, dass spätere Untersuchungen auch weitere KI-Agenten auf den darunterliegenden Ebenen einsetzen.

Erkenntnisse aus der Studienarbeit

Im Rahmen der Untersuchung wurde schnell klar, dass sich DeepMind‘s AlphaStar Ansatz nicht 1-zu-1 reproduzieren lässt. Zum einen stellte sich heraus, dass die verwendeten Verfahren doch nicht alle komplett offengelegt sind, zum anderen kann mit den in der Studie verfügbaren Mitteln nicht annähernd die Rechenkapazität bereitgestellt werden, die DeepMind für AlphaStar zur Verfügung stand. Um das angestrebte Training dennoch zielführend durchführen zu können, mussten sowohl die Simulationsumgebung als auch das Reinforcement Learning Framework, also quasi der KI-Agent selbst, deutlich vereinfacht und in der Berechnungsgeschwindigkeit optimiert werden.

Damit konnten die Komplexität des Systems und letztendlich auch der Bedarf an Rechenleistung reduziert werden. Das Training des KI-Agenten gestaltete sich dennoch als komplex, was letztendlich dazu führte, dass sowohl die Trainingsumgebung als auch die Struktur des KI-Agenten fortwährend angepasst und optimiert werden mussten. Eine kontinuierliche technisch-fachliche Begleitung und Überwachung des Trainingsprozesses war zwingend erforderlich.

Die KI-gestützte Lageentwicklung in der Simulationsumgebung / Airbus Defence and Space

Im Laufe der Untersuchung konnten durchaus bemerkenswerte Verhaltensweisen des KI-Agenten beobachtet werden. So setzt er z. B. Panzerkompanien vorwiegend in offenem Gelände ein. Weitreichende Waffensysteme setzt er frühzeitig ein, um das Kräfteverhältnis zu seinen Gunsten zu beeinflussen. Abgesetzte Aufklärungseinheiten setzt er so ein, dass Feindkräfte frühzeitig aufgeklärt werden können.

Eigene Einheiten bewegt der KI-Agent, auch unter Ausnutzung des Geländes, außerhalb der Wirkreichweiten gegnerischer Waffensysteme. Da diese Information nicht vorgegeben wurde, muss der Agent ‚gelernt‘ haben, wie weit der Gegner mit welchem Waffensystem wirken kann. In einem weiteren Szenario konnte beobachtet werden, wie der KI-Agent durch den Einsatz von Wurfminensperren Folgekräfte gezielt verlangsamt hat, um ein Aufschließen zu den Spitzenkräften zu verhindern.

An dieser Stelle muss darauf hingewiesen werden, dass die genannten Verhaltensweisen gesehen werden, wenn Menschen die Aktionen des KI-Agenten beobachten und bewerten. Der KI-Agent kennt Grundsätze wie Verzögerung, Bildung von Reserven, Gegenangriff und Gegenstoß nicht. Der KI-Agent berechnet zu jedem Zeitpunkt nur die Wahrscheinlichkeit des Erfolgs für die verfügbaren Aktionen und handelt entsprechend. Wie diese Wahrscheinlichkeiten zustande kommen, ist auf Grund der Komplexität des Gesamtsystems nicht ohne weiteres nachvollziehbar. Ein eigener Forschungszweig ‚Explainable AI‘ beschäftigt sich genau mit diesem Problemfeld.

Die Untersuchungsergebnisse lassen bereits jetzt erkennen, dass der vorgestellte Ansatz über großes Potenzial verfügt, einen KI-Agenten zur automatisierten Erledigung komplexer taktischer Aufgaben zu befähigen. Die Entscheidungsunterstützung ist hier nur ein möglicher Anwendungsfall. Weitere sind z. B. das Training von automatisierten unbemannten Systemen oder der Einsatz von Computer Generated Forces in der simulationsgestützten Ausbildung.

Aktivitäten anderer Nationen am Beispiel Israels: Alle Industrienationen messen der Entwicklung von KI-Verfahren im Militär große Bedeutung zu. Dies betrifft nicht nur USA, China und Russland. Aktuellen Berichten zu Folge arbeitet die Israelische Armee an einem KI-System, mit dem die Effizienz eigener Truppenteile zukünftig deutlich gesteigert werden kann. Im Rahmen einer ersten Demonstration wurden fünf Panzer mit dem KI-System vernetzt. Laut eigener Angabe ist die Entwicklung nicht mehr weit von einem automatisierten Abbild der Gefechtsführung entfernt. In weiteren Ausbaustufen sollen dem Kommandeur auf Verbandsebene Empfehlungen für die beste Taktik unterbreitet werden.

Fazit

Eine moderne Streitkraft nur dann effektiv und überlegen agieren, wenn sie über einen Führungsprozess verfügt, der mit der zunehmend beschleunigten Gefechtsführung Schritt halten kann. Die vorliegenden Studienergebnisse lassen erkennen, dass die KI-Methode des „Reinforcement Learning“ deutliches Potenzial aufweist, die notwendigen Beschleunigungen herbeizuführen. Die Studie zeigt aber auch, dass es noch erheblicher Anstrengungen bedarf dieses Potenzial umfassend zu heben.

Dies betrifft zum einen die erforderliche Hardware als auch die Software, also die Simulationsumgebung zum Trainieren des KI-Agenten. Es braucht fachlich erfahrene KI-Entwickler als auch militärfachlich erfahrene Taktiker mit hinreichend technischem Grundverständnis für die angewandten KI-Methoden. Die nationalen Kompetenzen zum Aufbau zukünftiger KI-Fähigkeiten im militärischen Bereich werden weiter an Bedeutung gewinnen.

Die Studie „Reinforcement Learning für komplexe Gefechtssituationen“ ist ein erster wichtiger Schritt die Potenziale der Künstlicher Intelligenz auch im militärischen Bereich nutzbar zu machen.


Künstliche Intelligenz trifft keine Entscheidungen: Wenn von KI die Rede ist, werden oft Begriffe wie „lernen“ oder „entscheiden“ verwendet. Dies kann schnell zu einer Vermenschlichung eines künstlich geschaffenen Systems führen und gleichzeitig die Fähigkeiten solcher Systeme weitaus mächtiger erscheinen lassen, als sie tatsächlich sind. KI selbst ist bereits eine Vermenschlichung, steht der Begriff doch eigentlich für eine Fachrichtung wissenschaftlicher Forschung aus den Bereichen Mathematik und Informatik.

Die Fähigkeiten einer KI sollen hier in keiner Weise gemindert werden, aber eine KI ist im Prinzip ‚nur‘ eine komplexe mathematische Funktion. Eine KI lernt nicht im Sinne menschlichen Lernens – Variablen dieser Funktion werden angepasst, um ein möglichst optimales Ergebnis zu erreichen. Eine KI trifft auch keine Entscheidungen – auf Grundlage von Eingangsparametern und der zuvor optimierten mathematischen Funktionen wird das Ergebnis mit der höchsten Wahrscheinlichkeit auf Erfolg berechnet. Eine KI folgt also nur einem zuvor festgelegten mathematischen Regelsatz.

Weil mathematische Verfahren in der gesellschaftlichen Diskussion eher schwer zu erklären sind tendieren Beteiligte dazu, Parallelen zum menschlichen Verhalten zu ziehen. Damit wird versucht die Methoden und Verfahren der KI greifbarer zu machen, ohne diese mit Begriffen aus der Mathematik erklären zu müssen. Diese Vorgehensweise führte in der Vergangenheit und auch heute noch zu massiven Missverständnissen.