- Rolle
- Forschung, Implementierung, Auswertung
- Zeitraum
- DHBW · 2. Semester · laufend 2026
- Projektart
- Studienprojekt
- Status
- In Arbeit
Kontext
Klassische Ampelsteuerungen folgen einem starren Plan. Bei wechselnder Last führt das zu unnötigem Wartezustand und ineffizientem Durchsatz.
Reinforcement Learning bietet hier eine attraktive Alternative. Ein Agent beobachtet Warteschlangenlängen und Phasen, wählt eine Aktion und lernt aus dem Reward.
Vorgehen
Die Simulation läuft in SUMO, einem Open-Source Verkehrssimulator, mit einer einfachen vierarmigen Kreuzung. Der Agent ist ein Deep-Q-Network, trainiert mit Stable-Baselines3, und entscheidet pro Schritt zwischen Phase A und Phase B.
Reward kombiniert drei Signale, negativ für Wartezeit, positiv für Throughput, mit einer Strafe für zu häufiges Phasenwechseln. Trainings laufen offline auf Episoden-Snapshots, Auswertung gegen eine fixe Baseline.
Stand
Nach knapp 4000 Episoden liegt der Agent rund 12 Prozent über der Baseline beim mittleren Reward. Spannend wird die nächste Phase, mehrere Kreuzungen und ein Multi-Agent-Setup mit geteilter Beobachtung. Ziel ist nicht der perfekte Algorithmus, sondern ein durchgehend dokumentiertes Lernprojekt.
Stack
- Python 3.12
- PyTorch
- Stable-Baselines3
- SUMO
- TraCI
- Matplotlib