Praktische Informatik

AG Jun. Prof. Dr. Dominik Köppl

Gegenwärtige Problemstellungen in vielen Bereichen erfordern das Abspeichern und Verarbeiten von riesigen Datenmengen. Die dazu notwendigen Verarbeitungsverfahren müssen diese Datenmengen nicht nur schnell verarbeiten können; sie müssen auch dementsprechend Speicher-sparsam arbeiten um ein Auslagern auf erheblich langsamere Speichermedien während der Verarbeitung zu verhindern. Wir beschäftigen uns deswegen mit Algorithmen und Datenstrukturen, die sowohl zeit- als auch Speicher-effizient arbeiten, und im Idealfall praktische Anwendung zur Verarbeitung riesiger Datenmengen finden. Anwendungsfälle sind allgegenwärtig, zum Beispiel:

  • Die verlustfreie Kompression on the fly im Netz; Beispielsweise werden HTML-Selien heutzutage nur noch im komprimierter Form (gzip) von HTTP-Servern übertragen.
  • Die Matrix-Berechnungen als einer der aufwändigsten Arbeitsschritte von neuronalen Netzwerken (convolutional neural network); Matrix-Vektor Multiplikationen können durch Index-Datenstrukturen beschleunigt werden.
  • Filtern und Aufbereiten von Eingabemengen für data mining.
  • Vergleich von Notenschriften aus der Musik.
  • Der Abgleich einer unbekannten DNA Sequenz mit einer Datenbank aus allen bisher bekannten COVID-19 Variationen um zu bestimmen, ob die unbekannte Sequenz mit hoher Wahrscheinlichkeit von einer neuen COVID-19 Variante stammt.

Anschrift

Einsteinstr. 62, Raum 712 48149 Münster

E-Mail: dominik.koeppl "Klammeraffe" uni-muenster.de

Sprechzeiten

Jeden Dienstag von 15-16 Uhr nach Vereinbarung per E-Mail.

Abschlussarbeiten

Wir haben aktuelle Themen für Bachelor- und Masterarbeiten in den Bereichen Textanalyse, Textindizierung, Kompression, oder der Kombinatorik auf Wörter. Falls Sie Interesse haben, vereinbaren Sie einfach einen Termin per E-Mail.

Textanalyse

Vor allem bei biologischen Daten wie DNA Sequenzen sind Fragestellungen nach der Ähnlichkeit wichtig. Hier spielen verschiedene Charakteristika wie shortest unique substrings, Palindrome, Wiederholungen, etc. eine große Rolle. Oft ist wichtig, dass diese Charakteristika trotz großen Datenmengen in wenig Platz schnell berechnet werden müssen.

Textindizierung

In vielen Bereichen wie z.B. der Analyse von genetischen Erkrankungen ist es wichtig, Suchmuster in großen Datensätzen zu finden. Hierbei sind die Datensätze oft so groß, dass eine lineare Suche nach dem Muster durch die Datensätze zeitlich nicht realisierbar ist.

Datenkompression

Populäre Datenkompressionsprogramme wie zip, 7zip oder rar verwenden Heuristiken, um bestimmte Redundanzen zu komprimieren. Trotz des rigorosen Einsatzes von Datenkompressoren sind viele Problemstellungen noch unklar. Dabei geht es nicht nur um die beste Kompressionsgüte, sondern auch darum, wie man obige Fragestellungen auf komprimierten Daten beantworten kann.

Kombinatorik auf Wörter

Das Aufkommen bestimmter Charakteristiken in Zeichenketten unterliegt gewisse mathematische Regeln. Zum Beispiel hat eine Zeichenkette der Länge n höchstens n+1 verschiedene Palindrome. Das Finden von oberen und untere Schranken von anderen Charakteristiken hilft bei der algorithmischen Beantwortung von Problemen aus der obig-erwähnten Textanalyse.

Lehre

Publikationen

Publikationsseite (extern)