Graph-basiertes Reinforcement Learning zur kollaborativen Bewegungsprädiktion von Drohnen

Im Rahmen meiner Masterarbeit im Studiengang Informatik mit dem Schwerpunkt auf intelligente Systeme (Data Science) wurde ein neuartiges Konzept für die autonome Steuerung von Drohnenschwärmen untersucht. Das Ziel der Arbeit, mit dem Titel “Graph-basiertes Reinforcement Learning zur kollaborativen Bewegungsprädiktion von Drohnen”, bestand darin, mehrere Drohnen in einem Schwarm so zu steuern, dass sie autonom zu einem Zielpunkt navigieren und dabei Kollisionen vermeiden.

Problemstellung und Zielsetzung #

Das Hauptziel des Projekts war die Entwicklung eines Modells, das Drohnen, die als Graph repräsentiert werden, ermöglicht, selbstständig Zielpunkte anzusteuern und dabei durch das Vermeiden von Kollisionen sicher zu fliegen. Jede Drohne musste in der Lage sein, die Bewegungen anderer Drohnen vorherzusagen und entsprechend ihre eigene Flugbahn anzupassen.

Teilprobleme: #

Graph-Repräsentation der Drohnen: Die Drohnen und ihre Umgebung wurden als Graphen modelliert, wobei jede Kante eine Verbindung zwischen den Drohnen darstellt, basierend auf ihrer relativen Position und Flugrichtung.
Reinforcement Learning (RL): Die Steuerung der Drohnen wurde durch einen RL-Algorithmus erlernt, der auf kontinuierliches Feedback der Umgebung reagiert und dabei lernt, Kollisionen zu vermeiden.
Prädiktion der Drohnenbewegungen: Um Kollisionen effektiv zu verhindern, musste das Modell die Bewegungen der anderen Drohnen innerhalb des Schwarms korrekt vorhersagen.

Analyse von Reinforcement Learning Algorithmen #

Zwei verschiedene Reinforcement Learning (RL)-Algorithmen wurden untersucht:

Deep Q-Learning (DQN): Ein Algorithmus, der auf diskrete Aktionen spezialisiert ist und durch eine Q-Wert-Funktion die besten Aktionen für den Agenten auswählt.
Proximal Policy Optimization (PPO): Ein fortgeschrittener RL-Algorithmus, der auf kontinuierliche Aktionen ausgelegt ist und durch das Optimieren der Policy eine stabile Lernkurve ermöglicht.

Beide Algorithmen wurden mit einem Graph-basierten Lernverfahren kombiniert, um die Relationen zwischen den Drohnen zu modellieren.

Spline-basierte Faltungsschichten im Graph Neural Network #

Eine Schlüsselkomponente des Modells war der Einsatz von spline-basierten Faltungsschichten im Graph Neural Network (GNN). Diese Schichten ermöglichten das implizite Lernen von Distanzen zwischen den Drohnen, ohne explizit metrische Distanzen in das Modell einzugeben. Auf diese Weise konnten die Drohnen effektiv Informationen über ihre Nachbarschaft verarbeiten und die Kollisionen vermeiden. Implementiert wurde dies mit der Python Bibliothek PyTorch Geometric.

Evaluierung der RL-Algorithmen #

Die beiden RL-Algorithmen wurden im Hinblick auf ihre Fähigkeit getestet, die Drohnen sicher zu ihrem Ziel zu führen und dabei Kollisionen zu vermeiden.

Deep Q-Learning (DQN) erwies sich als ungeeignet. Es konnte weder die Kollisionen verhindern noch die Drohnen erfolgreich zum Ziel führen.
Proximal Policy Optimization (PPO) zeigte hingegen vielversprechende Ergebnisse. Durch PPO war es möglich, dass die Drohnen das Ziel erreichten und gleichzeitig Kollisionen vermieden wurden.

Evaluiert wurden die Implementierungen in einer dafür selbst entwickelten Umgebung, aufgebaut auf Open AI Gym.

Curriculum Learning #

Eine weitere wichtige Erkenntnis war die Einführung von Curriculum Learning in den Trainingsprozess. Dieses Verfahren erleichterte das Training des RL-Agents, indem die Komplexität der Aufgaben schrittweise erhöht wurde. Durch den sukzessiven Aufbau der Schwierigkeit konnte PPO effizienter lernen und zeigte verbesserte Ergebnisse in der Kollisionsvermeidung und Zielansteuerung.

Fazit #

Die Masterarbeit zeigte, dass Graph-basiertes Reinforcement Learning ein Ansatz zur Steuerung von Drohnenschwärmen ist. Besonders Proximal Policy Optimization in Kombination mit Graph Neural Networks und Spline-Faltungsschichten erwies sich als geeignete Methode, um Drohnen sicher und effizient zu navigieren. Durch den Einsatz von Curriculum Learning konnte der Trainingsprozess weiter optimiert werden.

Tätigkeiten #

Implementierung und Adaption von zwei Reinforcement Learning Algorithmen: DQN und PPO
Abstrakte Implementierung einer virtuellen Umgebung für die Simulation von Drohnenflügen in OpenAI Gym
Evaluation des Lernerfolgs der maschinellen Lernverfahren in mehreren Experimenten
Dokumentation und Verteidigung der Ergebnisse