Praktische Informatik
AG Jun. Prof. Dr. Dominik Köppl
Gegenwärtige Problemstellungen in vielen Bereichen erfordern das Abspeichern und Verarbeiten von riesigen Datenmengen. Die dazu notwendigen Verarbeitungsverfahren müssen diese Datenmengen nicht nur schnell verarbeiten können; sie müssen auch dementsprechend Speicher-sparsam arbeiten um ein Auslagern auf erheblich langsamere Speichermedien während der Verarbeitung zu verhindern. Wir beschäftigen uns deswegen mit Algorithmen und Datenstrukturen, die sowohl zeit- als auch Speicher-effizient arbeiten, und im Idealfall praktische Anwendung zur Verarbeitung riesiger Datenmengen finden. Anwendungsfälle sind allgegenwärtig, zum Beispiel:
- Die verlustfreie Kompression on the fly im Netz; Beispielsweise werden HTML-Selien heutzutage nur noch im komprimierter Form (gzip) von HTTP-Servern übertragen.
- Die Matrix-Berechnungen als einer der aufwändigsten Arbeitsschritte von neuronalen Netzwerken (convolutional neural network); Matrix-Vektor Multiplikationen können durch Index-Datenstrukturen beschleunigt werden.
- Filtern und Aufbereiten von Eingabemengen für data mining.
- Vergleich von Notenschriften aus der Musik.
- Der Abgleich einer unbekannten DNA Sequenz mit einer Datenbank aus allen bisher bekannten COVID-19 Variationen um zu bestimmen, ob die unbekannte Sequenz mit hoher Wahrscheinlichkeit von einer neuen COVID-19 Variante stammt.
Anschrift
Einsteinstr. 62, Raum 712 48149 Münster
E-Mail: dominik.koeppl "Klammeraffe" uni-muenster.de
Sprechzeiten
Jeden Dienstag von 15-16 Uhr nach Vereinbarung per E-Mail.
Abschlussarbeiten
Wir haben aktuelle Themen für Bachelor- und Masterarbeiten in den Bereichen Textanalyse, Textindizierung, Kompression, oder der Kombinatorik auf Wörter. Falls Sie Interesse haben, vereinbaren Sie einfach einen Termin per E-Mail.
Textanalyse
Vor allem bei biologischen Daten wie DNA Sequenzen sind Fragestellungen nach der Ähnlichkeit wichtig. Hier spielen verschiedene Charakteristika wie shortest unique substrings, Palindrome, Wiederholungen, etc. eine große Rolle. Oft ist wichtig, dass diese Charakteristika trotz großen Datenmengen in wenig Platz schnell berechnet werden müssen.
Textindizierung
In vielen Bereichen wie z.B. der Analyse von genetischen Erkrankungen ist es wichtig, Suchmuster in großen Datensätzen zu finden. Hierbei sind die Datensätze oft so groß, dass eine lineare Suche nach dem Muster durch die Datensätze zeitlich nicht realisierbar ist.
Datenkompression
Populäre Datenkompressionsprogramme wie zip, 7zip oder rar verwenden Heuristiken, um bestimmte Redundanzen zu komprimieren. Trotz des rigorosen Einsatzes von Datenkompressoren sind viele Problemstellungen noch unklar. Dabei geht es nicht nur um die beste Kompressionsgüte, sondern auch darum, wie man obige Fragestellungen auf komprimierten Daten beantworten kann.
Kombinatorik auf Wörter
Das Aufkommen bestimmter Charakteristiken in Zeichenketten unterliegt gewisse mathematische Regeln. Zum Beispiel hat eine Zeichenkette der Länge n höchstens n+1 verschiedene Palindrome. Das Finden von oberen und untere Schranken von anderen Charakteristiken hilft bei der algorithmischen Beantwortung von Problemen aus der obig-erwähnten Textanalyse.
Lehre
- Vorlesung Effiziente Algorithmen im Learnweb
- Oberseminar "Praktische Informatik" am Dienstag, 16-18 Uhr