| Diffusion Models in DRL |
Ziel: Untersuchung und Entwicklung eines effizienten Ansatzes zur Generierung realistischer und steuerbarer Bewegungsmuster für Locomotion-Aufgaben mithilfe von Diffusionsmodellen innerhalb eines Deep Reinforcement Learning (DRL)-Rahmens.
Ansatz: Kombination von Diffusionsmodellen mit DRL-Agenten zur Generierung von Bewegungssequenzen. Die Diffusionsmodelle dienen dabei als Prior für physikalisch plausible Bewegungen, während DRL für die Anpassung an Zielvorgaben (z. B. Richtung, Geschwindigkeit) sorgt. Der Fokus liegt auf der Reduktion der Inferenzzeit durch distillierte oder konditionierte Diffusionsverfahren sowie auf der Evaluierung der resultierenden Bewegungsqualität und Sample-Effizienz.
|
Ma et al (2024), Hierarchical Diffusion Policy for Kinematics-Aware Multi-Task Robotic
Frans, Kevin, Danijar Hafner, Sergey Levine, and Pieter Abbeel. “One Step Diffusion via Shortcut Models.” arXiv.org, October 16, 2024. https://arxiv.org/abs/2410.12557v2.
|
| Evaluation von State-Space-Modellen (z. B. Mamba) für Sequenzmodellierung in Deep Reinforcement Learning |
Ziel: Untersuchung des Einsatzes von State-Space-Modellen (insbesondere Mamba) zur effizienten Verarbeitung von zeitabhängigen Zustandsfolgen in DRL-Umgebungen.
Ansatz: Implementierung und Vergleich von SSM-basierten Architekturen (z. B. Mamba) mit gängigen Sequenzmodellen wie RNNs und Transformers im Kontext von DRL. Der Fokus liegt auf Effizienz, Skalierbarkeit und Performance in zeitlich komplexen Aufgaben, z. B. Locomotion oder kontrollierte Navigation.
|
Gu, A., & Dao, T. (2023). Mamba: Linear-time sequence modeling with selective state spaces. arXiv preprint arXiv:2312.00752. |
| Teilnahme an einer RL Competition (z.B. NeurIPS ) |
Ziel: Entwicklung, Implementierung und Evaluation von DRL-Ansätzen im Rahmen aktueller RL-Wettbewerbe (z. B. Air-Hockey Challenge, PokeAgent, MyoChallenge, EAI Challenge) mit Fokus auf Generalisierung, Sample-Effizienz und robuster Steuerung.
Ansatz:
Auswahl eines RL-Wettbewerbs, Analyse der gestellten Aufgaben und Baselines, Entwicklung eines eigenen DRL-Agents (z. B. basierend auf PPO, SAC, Transformer- oder Model-based Ansätzen) und Vergleich mit bestehenden Methoden. Evaluation erfolgt anhand der offiziellen Metriken und Einreichung im Wettbewerb (optional).
|
Kidziński, Ł., Mohanty, S. P., Ong, C. F., Huang, Z., Zhou, S., Pechenko, A., ... & Delp, S. (2018). Learning to run challenge solutions: Adapting reinforcement learning methods for neuromusculoskeletal environments. In The NIPS'17 Competition: Building Intelligent Systems (pp. 121-153).
Myo-Challenge 2025
Embodied Agent Interface Challenge
PokéAgent Challenge
Air-Hockey Challenge
|
| Entwicklung eines model-basierten Deep Reinforcement Learning-Systems mit einem differenzierbaren neuronalen Netzwerk als Körpermodell für Bewegungslernen |
Ziel: Entwicklung eines model-basierten Deep Reinforcement Learning (DRL)-Systems, das ein differenzierbares neuronales Netzwerk als Körpermodell verwendet. Das primäre Ziel ist es, komplexe Bewegungen wie Manipulation oder Greifen von Objekten zu erlernen und effizient umzusetzen.
Ansatz: Einsatz eines differenzierbaren neuronalen Netzwerks, das das physische Modell des Roboters oder der manipulativen Einheit repräsentiert. Das DRL-System wird dann verwendet, um optimale Steuerstrategien für Aufgaben wie Greifen oder Manipulation zu lernen, wobei das neuronale Netzwerk die zugrundeliegenden physischen Interaktionen simuliert.
|
|
|
State Representation Learning and/or Conditioning for a Periodic Agent
|
Goal: Motivated by the observation that "nearly all forms of locomotion are inherently periodic", (Park et al., 2025) trains an embodied agent via intrinsic reward to elicit periodic behavior. This raises the question: instead of merely rewarding the agent for periodicity, can we directly help it produce periodic behavior in the first place? Specifically, can State Representation Learning and/or Input-Conditioning be leveraged to bias the agent's representations and architecture toward periodicity?
Methodology: State Representation Learning can be considered the Reinforcement Learning pendant to Unsupervised Pre-Training and Semi-Supervised Learning: an auxiliary loss that shapes the agent's features without directly optimizing return. (Jaderberg, 2016), for instance, add auxiliary reward prediction and auxiliary value functions to promote "faster training, more robust learning, and ultimately higher performance" on the target RL task.
Conditioning splits the agent into a base policy and a conditioning module, with a specific sub-problem — typically identifying the current dynamics or goal — delegated to the latter and trained on a proper auxiliary loss. The conditioning module learns to distill the relevant variation into a compact latent that the policy consumes alongside the observation, rather than forcing the policy to extract it itself.
|
Presentation Slides - Topic A (Bachelor/Master)
Park, J., Cho, D., Lee, J., Shim, D., Jang, I., & Kim, H. J. (2025). PSD: Periodic Skill Discovery (arXiv:2511.03187). arXiv. https://doi.org/10.48550/arXiv.2511.03187
Echchahed, A., & Castro, P. S. (2025). A Survey of State Representation Learning for Deep Reinforcement Learning (arXiv:2506.17518). arXiv. https://doi.org/10.48550/arXiv.2506.17518
|
| Decentralized Periodicity Constraints: Locomotion gaits are inherently periodic - can we exploit this structure and can we further factorize this structure e.g. across multiple legs? |
Goal: What benefits brings the decentralization of the periodic agent of (Park et al., 2025) in terms of skill diversity, spectral bandwidth and training robustness?
Methodology: Motivated by the observation that "nearly all forms of locomotion are inherently periodic", (Park et al., 2025) trains an embodied agent via intrinsic reward to elicit periodic behavior.
Decentralization is a structural prior on observation processing — e.g. left-leg locomotion is decoupled from right-hand sensing. Required by and theoretically grounded in Multi-Agent RL, motivated by biology in locomotion RL (Schilling et al., 2021).
Assuming that periodic behavior is spatially separable — i.e. the agent is "periodic" iff all limbs are "periodic" — we try to combine the two approaches by applying decentralization to the auxiliary encoder module of (Park et al., 2025). Open questions: do we apply decentralization to the agent as well? Should we allow different limbs to operate at different frequencies?
|
Presentation Slides - Topic B (Bachelor/Master)
Park, J., Cho, D., Lee, J., Shim, D., Jang, I., & Kim, H. J. (2025). PSD: Periodic Skill Discovery (arXiv:2511.03187). arXiv. https://doi.org/10.48550/arXiv.2511.03187
Schilling, M., Melnik, A., Ohl, F. W., Ritter, H. J., & Hammer, B. (2021). Decentralized control and local information for robust and adaptive decentralized Deep Reinforcement Learning. https://doi.org/10.1016/j.neunet.2021.09.017
|
|
Input-Conditioning via concatenation is a simple default. More elaborate techniques exist, but rarely applied in RL-with-auxiliary-learning setting — why?
|
Goal: Study the impact of different conditioning mechanisms from an auxiliary module on an RL agent. We propose an ablation study on a concrete Input-Conditioning baseline — e.g. (Yoshimura et al., 2026) — replacing concatenation with FiLM- and hypernetwork-based conditioning while holding the auxiliary loss fixed.
Methodology:
Conditioning splits the agent into a base policy and a conditioning module, with a specific sub-problem — typically identifying the current dynamics or goal — delegated to the latter and trained on a proper auxiliary loss. The conditioning module learns to distill the relevant variation into a compact latent that the policy consumes alongside the observation, rather than forcing the policy to extract it itself.
Input-Conditioning via concatenation is the default choice. More expressive mechanisms — e.g. FiLM or Hypernetworks — let the latent modulate the policy's computation directly, not just its input. Yet in the RL-with-auxiliary-learning setting they are rarely used (Sharma et al., 2018; Beck et al., 2022; Bauersfeld, 2023). A plausible reason is architectural: deeper integration would open additional gradient paths from the policy into the auxiliary module, which these setups typically aim to prevent.
|
Presentation Slides - Topic C (Master)
Sharma, A., & Kitani, K. (2018). Phase-Parametric Policies for Reinforcement Learning in Cyclic Environments. Proceedings of the AAAI Conference on Artificial Intelligence, 32(1). https://doi.org/10.1609/aaai.v32i1.12105
Beck, J., Jackson, M. T., Vuorio, R., & Whiteson, S. (2022). Hypernetworks in Meta-Reinforcement Learning (arXiv:2210.11348). arXiv. https://doi.org/10.48550/arXiv.2210.11348
Bauersfeld, L., Kaufmann, E., & Scaramuzza, D. (2023). User-Conditioned Neural Control Policies for Mobile Robotics (arXiv:2211.12181). arXiv. https://doi.org/10.48550/arXiv.2211.12181
Yoshimura, A., & Tanaka, G. (2026). ESN-OA: Online Adaptive Reinforcement Learning with Echo State Networks for Non-Stationary Dynamics (arXiv:2602.06326). arXiv. https://doi.org/10.48550/arXiv.2602.06326
|
|
Modelling Periodicity via Representation Learning
|
Goal: Motivated by the observation that "nearly all forms of locomotion are inherently periodic", (Park et al., 2025) trains an embodied agent via intrinsic reward to elicit periodic behavior. In the auxiliary module that parses periodic behavior from agent trajectories, they use Metric Learning, a subfield of Representation Learning. The latter is vast — Explore whether a more generic representation-learning approach can shape periodic latent geometry under even fewer structural assumptions than a metric-based formulation.
|
Presentation Slides - Topic D (Master)
Park, J., Cho, D., Lee, J., Shim, D., Jang, I., & Kim, H. J. (2025). PSD: Periodic Skill Discovery (arXiv:2511.03187). arXiv. https://doi.org/10.48550/arXiv.2511.03187
Liu, X., Zhang, F., Hou, Z., Mian, L., Wang, Z., Zhang, J., & Tang, J. (2021). Self-supervised Learning: Generative or Contrastive. IEEE Transactions on Knowledge and Data Engineering, 1–1. https://doi.org/10.1109/TKDE.2021.3090866
|
|
Echo State Networks (ESN) as Dynamics Model in Locomotion Deep Reinforcement Learning
|
Goal: An auxiliary dynamics model in RL provides a self-supervised loss signal by predicting e.g. future states from encoded representations, encouraging the encoder to capture transition-relevant structure independent of the reward signal. Echo State Networks (ESN), with their fixed reservoir and shallow readout, are a cheap candidate for this role. Investigate which input/conditioning signal to the ESN yields the most useful temporal features for locomotion RL.
Methodology: (1) Implement ESN as an auxiliary module alongside the RL agent. (2) Ablate the ESN's input signal — candidates include raw observations, encoded latent features, action history, or combinations thereof. (3) Optional: ablate the auxiliary loss target, e.g. forward dynamics model vs. inverse dynamics model. (4) Evaluate on MuJoCo locomotion
|
Yoshimura, A., & Tanaka, G. (2026). ESN-OA: Online Adaptive Reinforcement Learning with Echo State Networks for Non-Stationary Dynamics (arXiv:2602.06326). https://doi.org/10.48550/arXiv.2602.06326
Foong, T. Y., & Vargas, D. V. (2023). Generating Oscillation Activity with Echo State Network to Mimic the Behavior of a Simple Central Pattern Generator (arXiv:2306.10927). https://doi.org/10.48550/arXiv.2306.10927
Damicelli, F. echoes — ESN library. https://fabridamicelli.com/echoes/
|
| Transfer Learning in Deep Reinforcement Learning mittels Low-Rank Adaptation (LoRA) für vielseitige Task-Anpassung |
Ziel: Untersuchung der Wirksamkeit von Low-Rank Adaptation (LoRA) zur effizienten Erweiterung und Anpassung vortrainierter DRL-Modelle auf neue Aufgaben mit minimalem Ressourcenaufwand.
Ansatz: Basierend auf dem Konzept der Skill-Komposition in Parameterraum (z. B. aus dem genannten Paper) wird LoRA eingesetzt, um neue Fähigkeiten zu erlernen, ohne das Basisnetzwerk zu verändern. Es wird evaluiert, wie sich bestehende Skills effizient kombinieren und erweitern lassen, insbesondere in Multi-Task- oder Transfer-Szenarien mit verwandten Locomotion-Aufgaben.
|
Liu, Tenglong, Jianxiong Li, Yinan Zheng, Haoyi Niu, Yixing Lan, Xin Xu, and Xianyuan Zhan. “Skill Expansion and Composition in Parameter Space.” arXiv, February 9, 2025. https://doi.org/10.48550/arXiv.2502.05932. |
| Anpassungsfähigkeit von Deep Reinforcement Learning bei sich ändernden internen Bedingungen in Simulationsumgebung |
Ziel: Untersuchung der Anpassungsfähigkeit eins Deep RL Algorithmus zur Steuerung eines vierbeinigen Roboters in Simulationsumgebung bei variierenden internen Bedingungen wie wachsender Robotergröße oder Variation der Beinlänge.
Ansatz: Anpassung einer Simulationsumgebung mit zeitlicher Änderung des Roboters (curriculum). Darin Anwendung eines Feed-Forward Netzwerks als Control-Ansatz und Evaluierung durch Experimente zur Anpassungsfähigkeit an sich ändernde Bedingungen. Mögl. Erweiterung: Vergleich mit alternativem, Zustands-basiertem Netzwerk.
|
|