Abschlussarbeiten

Unsere Forschungsschwerpunkte liegen im Bereich des Maschinellen Lernens und der Künstlichen Intelligenz, mit besonderem Fokus auf:

  • Deep Reinforcement Learning
  • Robotik
  • Neuronale Netzwerke
  • Large Language Models als aktuellem Anwendungsbereich
  • Time Series Prediction

In diesen Themenfeldern betreuen wir gerne Abschlussarbeiten – sowohl auf Bachelor- als auch auf Master-Niveau. Dabei sind wir auch offen für eigene Themenvorschläge – für eine gute inhaltliche Betreuung sollte das Thema jedoch inhaltlich zu unseren Schwerpunkten passen.

Wenn Sie Interesse an einer Abschlussarbeit in diesem Umfeld haben oder eine eigene Idee einbringen möchten, sprechen sie uns gerne an, um einen ersten Termin auszumachen (Termine können über den Learnwebkurs des Oberseminars oder per Mail vereinbart werden; bitte geben sie kurz auch etwas zu ihrem Hintergrund (gehörte Vorlesungen in relevanten Bereichen) und Interessen bzw. Ideen an). In der Folge können wir dann über mehrere Treffen ein Thema und wissenschaftliche Fragestellung erarbeiten.

Im folgenden finden Sie eine Auswahl möglicher Themen als Beispiele, zugeordnet zu verschiedenen Themenrichtungen (aktualisiert, Juli 2025).

  • DRL

    Thema Beschreibung Literatur
    Diffusion Models in DRL

    Ziel: Untersuchung und Entwicklung eines effizienten Ansatzes zur Generierung realistischer und steuerbarer Bewegungsmuster für Locomotion-Aufgaben mithilfe von Diffusionsmodellen innerhalb eines Deep Reinforcement Learning (DRL)-Rahmens.

    Ansatz: Kombination von Diffusionsmodellen mit DRL-Agenten zur Generierung von Bewegungssequenzen. Die Diffusionsmodelle dienen dabei als Prior für physikalisch plausible Bewegungen, während DRL für die Anpassung an Zielvorgaben (z. B. Richtung, Geschwindigkeit) sorgt. Der Fokus liegt auf der Reduktion der Inferenzzeit durch distillierte oder konditionierte Diffusionsverfahren sowie auf der Evaluierung der resultierenden Bewegungsqualität und Sample-Effizienz.

    Ma et al (2024), Hierarchical Diffusion Policy for Kinematics-Aware Multi-Task Robotic

    Frans, Kevin, Danijar Hafner, Sergey Levine, and Pieter Abbeel. “One Step Diffusion via Shortcut Models.” arXiv.org, October 16, 2024. https://arxiv.org/abs/2410.12557v2.

    Evaluation von State-Space-Modellen (z. B. Mamba) für Sequenzmodellierung in Deep Reinforcement Learning

    Ziel: Untersuchung des Einsatzes von State-Space-Modellen (insbesondere Mamba) zur effizienten Verarbeitung von zeitabhängigen Zustandsfolgen in DRL-Umgebungen.

    Ansatz: Implementierung und Vergleich von SSM-basierten Architekturen (z. B. Mamba) mit gängigen Sequenzmodellen wie RNNs und Transformers im Kontext von DRL. Der Fokus liegt auf Effizienz, Skalierbarkeit und Performance in zeitlich komplexen Aufgaben, z. B. Locomotion oder kontrollierte Navigation.

    Gu, A., & Dao, T. (2023). Mamba: Linear-time sequence modeling with selective state spaces. arXiv preprint arXiv:2312.00752.
    Teilnahme an einer RL Competition (z.B. NeurIPS )

    Ziel: Entwicklung, Implementierung und Evaluation von DRL-Ansätzen im Rahmen aktueller RL-Wettbewerbe (z. B. Air-Hockey Challenge, PokeAgent, MyoChallenge, EAI Challenge) mit Fokus auf Generalisierung, Sample-Effizienz und robuster Steuerung.

    Ansatz:
    Auswahl eines RL-Wettbewerbs, Analyse der gestellten Aufgaben und Baselines, Entwicklung eines eigenen DRL-Agents (z. B. basierend auf PPO, SAC, Transformer- oder Model-based Ansätzen) und Vergleich mit bestehenden Methoden. Evaluation erfolgt anhand der offiziellen Metriken und Einreichung im Wettbewerb (optional).

    Kidziński, Ł., Mohanty, S. P., Ong, C. F., Huang, Z., Zhou, S., Pechenko, A., ... & Delp, S. (2018). Learning to run challenge solutions: Adapting reinforcement learning methods for neuromusculoskeletal environments. In The NIPS'17 Competition: Building Intelligent Systems (pp. 121-153).

    Myo-Challenge 2025

    Embodied Agent Interface Challenge

    PokéAgent Challenge

    Air-Hockey Challenge

    Entwicklung eines model-basierten Deep Reinforcement Learning-Systems mit einem differenzierbaren neuronalen Netzwerk als Körpermodell für Bewegungslernen

    Ziel: Entwicklung eines model-basierten Deep Reinforcement Learning (DRL)-Systems, das ein differenzierbares neuronales Netzwerk als Körpermodell verwendet. Das primäre Ziel ist es, komplexe Bewegungen wie Manipulation oder Greifen von Objekten zu erlernen und effizient umzusetzen.

    Ansatz: Einsatz eines differenzierbaren neuronalen Netzwerks, das das physische Modell des Roboters oder der manipulativen Einheit repräsentiert. Das DRL-System wird dann verwendet, um optimale Steuerstrategien für Aufgaben wie Greifen oder Manipulation zu lernen, wobei das neuronale Netzwerk die zugrundeliegenden physischen Interaktionen simuliert.

     

    Transfer Learning in Deep Reinforcement Learning mittels Low-Rank Adaptation (LoRA) für vielseitige Task-Anpassung

    Ziel: Untersuchung der Wirksamkeit von Low-Rank Adaptation (LoRA) zur effizienten Erweiterung und Anpassung vortrainierter DRL-Modelle auf neue Aufgaben mit minimalem Ressourcenaufwand.

    Ansatz: Basierend auf dem Konzept der Skill-Komposition in Parameterraum (z. B. aus dem genannten Paper) wird LoRA eingesetzt, um neue Fähigkeiten zu erlernen, ohne das Basisnetzwerk zu verändern. Es wird evaluiert, wie sich bestehende Skills effizient kombinieren und erweitern lassen, insbesondere in Multi-Task- oder Transfer-Szenarien mit verwandten Locomotion-Aufgaben.

    Liu, Tenglong, Jianxiong Li, Yinan Zheng, Haoyi Niu, Yixing Lan, Xin Xu, and Xianyuan Zhan. “Skill Expansion and Composition in Parameter Space.” arXiv, February 9, 2025. https://doi.org/10.48550/arXiv.2502.05932.
    Anpassungsfähigkeit von Deep Reinforcement Learning bei sich ändernden internen Bedingungen in Simulationsumgebung

    Ziel: Untersuchung der Anpassungsfähigkeit eins Deep RL Algorithmus zur Steuerung eines vierbeinigen Roboters in Simulationsumgebung bei variierenden internen Bedingungen wie wachsender Robotergröße oder Variation der Beinlänge.

    Ansatz: Anpassung einer Simulationsumgebung mit zeitlicher Änderung des Roboters (curriculum). Darin Anwendung eines Feed-Forward Netzwerks als Control-Ansatz und Evaluierung durch Experimente zur Anpassungsfähigkeit an sich ändernde Bedingungen. Mögl. Erweiterung: Vergleich mit alternativem, Zustands-basiertem Netzwerk.

     

     

  • Robotik

    Thema Beschreibung Literatur
    Vision-Language-Action-Modelle zur adaptiven Steuerung von Robotern

    Ziel: Entwicklung eines Steuerungsansatzes, der Foundation-Modelle (z. B. VLAs) für eine multimodale Planung nutzt und diese mit einem schnellen, adaptiven Kontrollmodul für präzise Robotiksteuerung kombiniert.

    Ansatz: Verwendung eines existierenden VLA-Modells zur Generierung von open-loop Aktionsplänen (z. B. Sequenzen geplanter Bewegungen Kontrollsignale). Aufbau eines Intermediate Controllers (z. B. mittels DRL oder Model Predictive Control), der diese Pläne in Echtzeit adaptiv interpretiert, aktualisiert und in hochfrequente Steuersignale für Locomotion-Systeme übersetzt. Fokus auf Modularität, Reaktionsfähigkeit und Sample-Effizienz.

    Kim, M. J., Pertsch, K., Karamcheti, S., Xiao, T., Balakrishna, A., Nair, S., ... & Finn, C. (2024). OpenVLA: An open-source vision-language-action model. arXiv preprint arXiv:2406.09246.

    Boyle, L., Baumann, N., Sivasothilingam, P., Magno, M., & Benini, L. (2025). RobotxR1: Enabling Embodied Robotic Intelligence on Large Language Models through Closed-Loop Reinforcement Learning. arXiv preprint arXiv:2505.03238.

    Entwicklung eines neuronalen Netzes zur Vorhersage von Bodenkontakt bei laufenden Robotern

    Ziel: Entwicklung eines neuronalen Netzes zur Vorhersage des Bodenkontakts von Robotern, basierend auf Servomotordaten.

    Ansatz: Analyse von Servomotordaten und Bodenkontaktsensordaten eines laufenden Roboters; Entwicklung und Training eines neuronalen Netzes zur Vorhersage des Bodenkontakts.

     

    Berücksichtigung sensorischer Verzögerungen in Deep Reinforcement Learning

    Ziel: Erforschung der Auswirkungen sensorischer Verzögerungen auf dezentrale und zentrale DRL-Systeme – deren Lernverhalten und die Robustheit des gelernten Verhaltens.

    Ansatz: Vergleich von dezentralem DRL mit geringeren sensorischen Verzögerungen und zentralem DRL unter Einbeziehung größerer Verzögerungen. Analyse des Einflusses dieser Verzögerungen auf die Leistung und das Lernverhalten.

     

     

  • NN

    Sprechen sie uns gerne zu Themen im Bereich Neuronaler Netze und Lernen von Neuronalen Netzen an, z.B. zum Repräsentationslernen, zu XAI Ansätzen, Generalisierungsuntersuchungen, ...

    Thema Beschreibung Literatur
    Entwicklung eines neuronalen Netzes zur Vorhersage von Bodenkontakt bei laufenden Robotern

    Ziel: Entwicklung eines neuronalen Netzes zur Vorhersage des Bodenkontakts von Robotern, basierend auf Servomotordaten.

    Ansatz: Analyse von Servomotordaten und Bodenkontaktsensordaten eines laufenden Roboters; Entwicklung und Training eines neuronalen Netzes zur Vorhersage des Bodenkontakts.

    Voraussetzungen: Kenntnisse in Machine Learning, Robotik und Programmierung (vorzugsweise Python).

     

     

  • LLMs

    Abschlussarbeiten sowohl im Einsatz und Anwendung von LLMs und deren Evaluation (unter Einbindung von Retrieval-Augmented Generation oder unter Verwendung von Fine-Tunign) als auch speziell mit einem Fokus zum Verständnis der neuronalen Netze und der Untersuchung der internen Zustände.

    Thema Beschreibung Literatur

    Anpassung von Texten an Sprachniveaus im Deutsch-als-Fremdsprache-Unterricht

    Ziel: Verbesserung der Anpassung von Texten an verschiedene Sprachniveaus durch Reinforcement Fine-Tuning, um gezielt bezüglich linguistischer Qualität und Verständlichkeit zu optimieren.

    Ansatz: Ein initial trainiertes Sprachmodell wird mithilfe von Reinforcement Learning weiter verfeinert. Eine Belohnungsfunktion bewertet dabei die Qualität der Texttransformationen basierend auf sprachlichen Kriterien (z. B. Lesbarkeitsmetriken, Expertenfeedback oder automatische Bewertungen durch größere Modelle). Durch optimierte Rückmeldemechanismen soll das Modell robuste und konsistente Anpassungen an Sprachniveaus erlernen. Umsetzung z.B. über Knowledge Distillation, spezielle Trainingsansätze (DPO, GRPO)

    Xu, Xiaohan, Ming Li, Chongyang Tao, Tao Shen, Reynold Cheng, Jinyang Li, Can Xu, Dacheng Tao, and Tianyi Zhou. “A Survey on Knowledge Distillation of Large Language Models.” arXiv, October 21, 2024. https://doi.org/10.48550/arXiv.2402.13116.

    Rafailov et al. (2024), “Direct Preference Optimization: Your Language Model Is Secretly a Reward Model.” arXiv, https://doi.org/10.48550/arXiv.2305.18290.

    https://argilla.io/blog/mantisnlp-rlhf-part-8/ 

    Reasoning Model – Distillation von Reasoning-Traces aus LLMs (z.B. zur Modellierung von Sprachverständnis auf unterschiedlichen Sprachniveaus)

    Ziel: Untersuchung, wie sich Reasoning-Traces von LLMs für Aufgaben des Sprachverstehens auf verschiedenen Sprachniveaus erzeugen und nutzen lassen, um daraus ein kompakteres, spezialisiertes Modell über Distillation abzuleiten.

    Ansatz: Ein bestehendes LLM wird genutzt, um reasoning-basierte Antwortpfade zu generieren, die den kognitiven Schwierigkeitsgrad je nach Sprachniveau reflektieren (z. B. A2 bis C1). Diese Traces werden gesammelt, annotiert und dienen als Trainingsdaten für ein kleineres Modell. Ziel ist eine effektive Wissensdistillation unter Beibehaltung der reasoning-Fähigkeiten für differenziertes Sprachverstehen.

    DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, et al. “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.” arXiv, January 22, 2025. https://doi.org/10.48550/arXiv.2501.12948.

    https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html

    Auswerten / Klassifikation von Internal States eines LLMs / Reasoning Models

    Ziel: Untersuchung, ob und wie interne Aktivierungszustände von LLMs genutzt werden können, um deren internen Zustand auszuwerten. Am Beispiel: Um das Sprachniveau eines Eingabesatzes zu erkennen oder als Konfidenzabschätzung darüber.

    Ansatz: Analyse der Aktivierungsmuster in den letzten Schichten eines LLM bei Inputs unterschiedlicher Sprachniveaus (z. B. A1–C2). Entwicklung eines Klassifikators, der auf diesen internen Zuständen basiert. Vergleich der Ergebnisse mit externen Sprachniveau-Erkennungsstrategien durch Prompting. Nutzung geeigneter Metriken zur Modellkonfidenz und Evaluierung der Korrelation dieser Metriken mit annotierten Sprachniveaus.

    Azaria, A., & Mitchell, T. (2023). The internal state of an LLM knows when it's lying. arXiv preprint arXiv:2304.13734.

    Ridder, F., & Schilling, M. (2024). The HalluRAG Dataset: Detecting Closed-Domain Hallucinations in RAG Applications Using an LLM's Internal States. arXiv preprint arXiv:2412.17056.

    Anthropic (2025), Tracing the thoughts of a large language model und (2024) Mapping the Mind of a LLM

     

  • Time Series Pred.

    Thema Zuordnung Beschreibung
    Vergleich von State Space Modellen zur Vorhersage von Zeitreihen Neural Networks, Deep Learning [Bachelor]

    Ziel: Evaluierung der Vorhersagegüte von State Space Modellen wie SMamba, TimeMachine und TwinMamba zur Vorhersage von Zeitreihen.

    Ansatz: Detaillierte Untersuchung und Vergleich der theoretischen Grundlagen; Implementierung von mind. 1 Modell zur Vorhersage von Zeitreihen; Durchführung von Experimenten zur Bewertung der Vorhersagegenauigkeit und Leistungsfähigkeit des Modells/der Modelle anhand von Benchmark-Datensätzen; Vergleich der Ergebnisse und Analyse der Stärken und Schwächen der einzelnen Modelle.

    Voraussetzungen: Kenntnisse in Deep (supervised) Learning, Programmierkenntnisse (bevorzugt Python, Pytorch/Tensorflow).

    Implementierung und Auswertung von Positional Encodings für Time Series Forecasting mit Transformern Neural Networks, Deep Learning [Bachelor]

    Ziel: Bewertung der Wirksamkeit von Positional Encodings bei der Vorhersage von Zeitreihen mit Transformern. Identifikation und Analyse von Schwachstellen der eingesetzten Methoden.

    Ansatz: Verständnisaufbau für Transformer-Modelle und deren Anwendung im Bereich der Zeitreihen-Vorhersage; Untersuchung bestehender Ansätze des Positional Encodings; Experimenten zur Bewertung des Einflusses verschiedener Positional Encodings auf die Vorhersagegenauigkeit und Leistungsfähigkeit der Modelle anhand von Benchmark-Datensätzen; Identifikation und Analyse der Schwachstellen der verwendeten Methoden und Modelle; ggf. Vorschläge für mögliche Verbesserung.

    Voraussetzungen: Kenntnisse in Deep (supervised) Learning, Programmierkenntnisse (bevorzugt Python, Pytorch/Tensorflow).

     

  • Abgeschlossene Arbeiten

    • Felix Löffler (Master Thesis, 2025), KI im Abenteuerland – Analyse der Planungsfähigkeiten von Sprachmodellen in textbasierten Spielen unter Verwendung von Memory Streams.
    • Marius Schmitz (Master Thesis, 2025), Conceptualized Embedding Spaces for Enhanced Semantic Text Search – A Concept-Driven Approach for Controllable and Explainable Information Retrieval.
    • Alex Nigge (Bachelor Thesis, 2025), Obstacle Avoidance Path Planning for a 3-DoF Robotic Arm: A Comparative Study of A* and Potential Fields with a Focus on Joint Linkage.
    • Philipp Simon Michels (Master Thesis, 2025), Brainstorming the Invisible: Empowering Process Owners to Uncover Latent Process Workarounds.
    • Jennifer Spanagel (Master Thesis, 2025), Evaluation von Methoden zur Bewertung und Optimierung der inhaltlichen Kontexttreue am Beispiel einer medizinischen RAG Knowledge-Base und LLM Antworten.
    • Justus Klameth (Bachelor Thesis, 2025), Evaluierung der geographischen Fähigkeiten ausgewählter Llama-Modelle: Eine Untersuchung zur Genauigkeit der Koordinaten und Distanzermittlung von Städten.
    • Jasmin Horstknepper (Bachelor Thesis, 2025), Training Diversity for Interpretable RL Models.
    • Marvin Kohnen (Bachelor Thesis, 2024), Architectural Layering in Autonomous Robotics – Modular Design and Implementation on the Turtlebot3 Platform using ROS2.
    • Julius Lückefahr (Bachelor Thesis, 2024), Entwicklung einer gamifizierten Lernsoftware für Robotik: Eine durch Motivation gerechtfertigte Anwendung für Studierende.
    • Fabian Ridder (Bachelor Thesis, 2024), HalluRAG Detecting Hallucinations in RAG Applications Using an LLM’s Internal States.
    • Leon Alers (Bachelor Thesis, 2024), A comparative analysis of locomotion in quadruped robots, focusing on the discrepancies between simulation and real-world implementation.
    • Eik Weißhaar (Bachelor Thesis, 2024), Design and Implementation of a Modular Software Architecture for Hexapod Robots Enabling Multi-Mode Control and Navigation.
    • Johannes Thiel (Bachelor Thesis, 2024), Integration einer sicherheitsrelevanten Anwendung in ein bestehendes System – am Beispiel einer Grabendetektion für den Roboter Feldfreund.
    • Peter Felix (Master Thesis, 2024), Analyse und Bewertung von Finetuning von Large Language Models zur Lösung kontextsensitiver Instruction Tasks.
    • Tim Völker (Master Thesis, 2024), Sequential Decentralized Deep Reinforcement Learning Architecture for a Simulated Four-Legged Agent using Transformers.
    • Benjamin Treptow (Bachelor Thesis, 2024), Sim2Real: Transfer eines trainierten Laufcontrollers aus Simulationen auf einen realen Roboter.
    • Elias-Leander Ahlers (Bachelor Thesis, 2024), How can Large Language Models (LLMs) be Effectively Used for Classifying and transferring Between Language Proficiency Levels in German?
    • Jens Wienkamp (Bachelor Thesis, 2024), Controlled forgetting and output restricting of large language models within the context of language learning.
    • Niklas Hellmann (Bachelor Thesis, 2023), Evaluation and Enhancement of Artificial Potential Fields for Path Planning in Dynamic Environments. 
    • Staislav Staykov (Bachelor Thesis, 2023), The Impact of Noisy Observations on Deep Deterministic Policy Gradient
    • Matthias Hering (Bachelor Thesis, 2023), 3D-Printed Robust Ground Contact Sensors for Hap-tic Feedback using Functional Materials.
    • Bastian Klein (Bachelor Thesis, 2023), Leveraging MATLAB Simulink for Hexapod Robotics: Simulation, Control and Learning.
    • Rama Eissa (Bachelor Thesis, 2023), Integration of SLAM with Semi-Autonomous control mechanism based on hand gestures: A Study on a TurtleBot3 Burger Robot in Gazebo.
    • Sanando Schwenkel (Bachelor Thesis, 2023), An Abstract Model of an Adaptive Hexapod Ro-bot in Simulink and Stateflow.
    • Wadhah Zai El Amri (Master Thesis, 2022), Hierarchical Decentralized Deep Reinforcement Learning Architecture 
for a Simulated Four-Legged Agent.
    • Janneke Simmering (Master Thesis, 2021), Framework for emergent locomotion on a hexapod robot.
    • Luca Hermes (Master Thesis, 2021) Encoding Spatial and Temporal Features of Moving Skeletons using Geometric Deep Learning.
    • Balavivek Sivanantham (Master Thesis, 2020), Predictive Analysis on Rework process in Automotive Assembly line using Deep Learning.
    • Arsalane Arrach (Master Thesis, 2020), Towards practical and realistic approaches for systems of shared autonomous vehicles: A decentralized solution using hierarchical multi-agent reinforcement learning.
    • Kai Konen (Master Thesis, 2020), Decentralized Deep Reinforcement Learning for the Simulation of Six-Legged Locomotion.
    • Florian Raskob (Bachelor Thesis, 2019), Time series analysis and classification with ANN: Exploring characteristics of golf puts in kinematic and eye movement data. 
    • Luca Lach (Master Thesis, 2019), Guiding Representation Learning in Deep Generative Models with Policy Gradients.
    • Luca Hermes (Bachelor Thesis, 2018), Toward a Biomimetic Johnston’s Organ for Contact Distance Estimation.
      Philipp Lücking (Master Thesis), An autonomous modular robotic system for child-robot interaction.
    • Manuel Baum (Master Thesis), Modeling kinematics of a redundant manipulator using population coding and the MMC principle.