| Diffusion Models in DRL |
Ziel: Untersuchung und Entwicklung eines effizienten Ansatzes zur Generierung realistischer und steuerbarer Bewegungsmuster für Locomotion-Aufgaben mithilfe von Diffusionsmodellen innerhalb eines Deep Reinforcement Learning (DRL)-Rahmens.
Ansatz: Kombination von Diffusionsmodellen mit DRL-Agenten zur Generierung von Bewegungssequenzen. Die Diffusionsmodelle dienen dabei als Prior für physikalisch plausible Bewegungen, während DRL für die Anpassung an Zielvorgaben (z. B. Richtung, Geschwindigkeit) sorgt. Der Fokus liegt auf der Reduktion der Inferenzzeit durch distillierte oder konditionierte Diffusionsverfahren sowie auf der Evaluierung der resultierenden Bewegungsqualität und Sample-Effizienz.
|
Ma et al (2024), Hierarchical Diffusion Policy for Kinematics-Aware Multi-Task Robotic
Frans, Kevin, Danijar Hafner, Sergey Levine, and Pieter Abbeel. “One Step Diffusion via Shortcut Models.” arXiv.org, October 16, 2024. https://arxiv.org/abs/2410.12557v2.
|
| Evaluation von State-Space-Modellen (z. B. Mamba) für Sequenzmodellierung in Deep Reinforcement Learning |
Ziel: Untersuchung des Einsatzes von State-Space-Modellen (insbesondere Mamba) zur effizienten Verarbeitung von zeitabhängigen Zustandsfolgen in DRL-Umgebungen.
Ansatz: Implementierung und Vergleich von SSM-basierten Architekturen (z. B. Mamba) mit gängigen Sequenzmodellen wie RNNs und Transformers im Kontext von DRL. Der Fokus liegt auf Effizienz, Skalierbarkeit und Performance in zeitlich komplexen Aufgaben, z. B. Locomotion oder kontrollierte Navigation.
|
Gu, A., & Dao, T. (2023). Mamba: Linear-time sequence modeling with selective state spaces. arXiv preprint arXiv:2312.00752. |
| Teilnahme an einer RL Competition (z.B. NeurIPS ) |
Ziel: Entwicklung, Implementierung und Evaluation von DRL-Ansätzen im Rahmen aktueller RL-Wettbewerbe (z. B. Air-Hockey Challenge, PokeAgent, MyoChallenge, EAI Challenge) mit Fokus auf Generalisierung, Sample-Effizienz und robuster Steuerung.
Ansatz:
Auswahl eines RL-Wettbewerbs, Analyse der gestellten Aufgaben und Baselines, Entwicklung eines eigenen DRL-Agents (z. B. basierend auf PPO, SAC, Transformer- oder Model-based Ansätzen) und Vergleich mit bestehenden Methoden. Evaluation erfolgt anhand der offiziellen Metriken und Einreichung im Wettbewerb (optional).
|
Kidziński, Ł., Mohanty, S. P., Ong, C. F., Huang, Z., Zhou, S., Pechenko, A., ... & Delp, S. (2018). Learning to run challenge solutions: Adapting reinforcement learning methods for neuromusculoskeletal environments. In The NIPS'17 Competition: Building Intelligent Systems (pp. 121-153).
Myo-Challenge 2025
Embodied Agent Interface Challenge
PokéAgent Challenge
Air-Hockey Challenge
|
| Entwicklung eines model-basierten Deep Reinforcement Learning-Systems mit einem differenzierbaren neuronalen Netzwerk als Körpermodell für Bewegungslernen |
Ziel: Entwicklung eines model-basierten Deep Reinforcement Learning (DRL)-Systems, das ein differenzierbares neuronales Netzwerk als Körpermodell verwendet. Das primäre Ziel ist es, komplexe Bewegungen wie Manipulation oder Greifen von Objekten zu erlernen und effizient umzusetzen.
Ansatz: Einsatz eines differenzierbaren neuronalen Netzwerks, das das physische Modell des Roboters oder der manipulativen Einheit repräsentiert. Das DRL-System wird dann verwendet, um optimale Steuerstrategien für Aufgaben wie Greifen oder Manipulation zu lernen, wobei das neuronale Netzwerk die zugrundeliegenden physischen Interaktionen simuliert.
|
|
|
Transfer Learning in Deep Reinforcement Learning mittels Low-Rank Adaptation (LoRA) für vielseitige Task-Anpassung
|
Ziel: Untersuchung der Wirksamkeit von Low-Rank Adaptation (LoRA) zur effizienten Erweiterung und Anpassung vortrainierter DRL-Modelle auf neue Aufgaben mit minimalem Ressourcenaufwand.
Ansatz: Basierend auf dem Konzept der Skill-Komposition in Parameterraum (z. B. aus dem genannten Paper) wird LoRA eingesetzt, um neue Fähigkeiten zu erlernen, ohne das Basisnetzwerk zu verändern. Es wird evaluiert, wie sich bestehende Skills effizient kombinieren und erweitern lassen, insbesondere in Multi-Task- oder Transfer-Szenarien mit verwandten Locomotion-Aufgaben.
|
Liu, Tenglong, Jianxiong Li, Yinan Zheng, Haoyi Niu, Yixing Lan, Xin Xu, and Xianyuan Zhan. “Skill Expansion and Composition in Parameter Space.” arXiv, February 9, 2025. https://doi.org/10.48550/arXiv.2502.05932. |
| Anpassungsfähigkeit von Deep Reinforcement Learning bei sich ändernden internen Bedingungen in Simulationsumgebung |
Ziel: Untersuchung der Anpassungsfähigkeit eins Deep RL Algorithmus zur Steuerung eines vierbeinigen Roboters in Simulationsumgebung bei variierenden internen Bedingungen wie wachsender Robotergröße oder Variation der Beinlänge.
Ansatz: Anpassung einer Simulationsumgebung mit zeitlicher Änderung des Roboters (curriculum). Darin Anwendung eines Feed-Forward Netzwerks als Control-Ansatz und Evaluierung durch Experimente zur Anpassungsfähigkeit an sich ändernde Bedingungen. Mögl. Erweiterung: Vergleich mit alternativem, Zustands-basiertem Netzwerk.
|
|
| Decentralized Periodicity Constraints: Locomotion gaits are inherently periodic - can we exploit this structure and can we further factorize this structure e.g. across multiple legs? |
Goal: Build a decentralized encoder that captures per-leg periodicity and inter-leg phase relationships (gaits). Evaluate the effect of such decentralization versus a centralized baseline in terms of skill diversity, spectral bandwidth and training robustness.
Methodology: Periodic Skill Discovery (PSD) learns periodic latent encodings of the agent's trajectory and reinforces periodic behavior of the agent. For the decentralized setting, we consider a joint latent space where each marginal space corresponds to e.g. one leg. Decentralization raises further questions like: should different body parts operate at different frequencies?
|
Schilling, M., Melnik, A., Ohl, F. W., Ritter, H. J., & Hammer, B. (2021). Decentralized control and local information for robust and adaptive decentralized Deep Reinforcement Learning. https://doi.org/10.1016/j.neunet.2021.09.017
Park, J., Cho, D., Lee, J., Shim, D., Jang, I., & Kim, H. J. (2025). PSD: Periodic Skill Discovery. https://doi.org/10.48550/arXiv.2511.03187 |