SUMO Ampelphasen · Fabian Egenberger

Rolle: Forschung, Implementierung, Auswertung
Zeitraum: DHBW · 2. Semester · laufend 2026
Projektart: Studienprojekt
Status: In Arbeit

Kontext

Klassische Ampelsteuerungen folgen einem starren Plan. Bei wechselnder Last führt das zu unnötigem Wartezustand und ineffizientem Durchsatz.

Reinforcement Learning bietet hier eine attraktive Alternative. Ein Agent beobachtet Warteschlangenlängen und Phasen, wählt eine Aktion und lernt aus dem Reward.

Vorgehen

Die Simulation läuft in SUMO, einem Open-Source Verkehrssimulator, mit einer einfachen vierarmigen Kreuzung. Der Agent ist ein Deep-Q-Network, trainiert mit Stable-Baselines3, und entscheidet pro Schritt zwischen Phase A und Phase B.

Reward kombiniert drei Signale, negativ für Wartezeit, positiv für Throughput, mit einer Strafe für zu häufiges Phasenwechseln. Trainings laufen offline auf Episoden-Snapshots, Auswertung gegen eine fixe Baseline.

Stand

Nach knapp 4000 Episoden liegt der Agent rund 12 Prozent über der Baseline beim mittleren Reward. Spannend wird die nächste Phase, mehrere Kreuzungen und ein Multi-Agent-Setup mit geteilter Beobachtung. Ziel ist nicht der perfekte Algorithmus, sondern ein durchgehend dokumentiertes Lernprojekt.

Stack

Python 3.12
PyTorch
Stable-Baselines3
SUMO
TraCI
Matplotlib

← Alle Projekte

Rolle: Forschung, Implementierung, Auswertung
Zeitraum: DHBW · 2. Semester · laufend 2026
Projektart: Studienprojekt
Status: In Arbeit