Multimedia
Praktikum
Bildgewinnung und Bilddarstellung
![]()
Wird eine Textseite gescannt, so liegt sie natürlich als Grafik vor. Dass sie Text enthält, ist für den menschlichen Betrachter zwar offensichtlich, ein Textverarbeitungsprogramm erkennt die Buchstaben jedoch nicht. Will man diese Seite einer Textbearbeitung zugänglich machen, so muss sie mit einem speziellen Programm bearbeitet werden. Dies ist die Aufgabe von OCR-Programmen (Optical Character Recognition). Sie analysieren die Grafik, extrahieren den Text und speichern ihn in einem Format ab, das von Textverarbeitungsprogrammen weiterverarbeitet werden kann.
Die heute auf dem Markt befindlichen OCR-Programme arbeiten gut, aber nicht perfekt. Insbesondere kann man sich nicht auf die Fehlerlosigkeit der Ergebnisse verlassen. Zwar werden die Programme mit einer Trefferquote von 99% beworben. Halten Sie das aber nicht für besonders beeindruckend. Heißt es doch nichts anderes, als dass jedes hundertste Zeichen falsch erkannt wird. Spätestens in jeder dritten Zeile ist also ein Fehler zu erwarten, Korrekturlesen also dringend erforderlich.
Wie verwenden ein Programm, das auf die Entwicklung von russischen Informatikern zurück geht: den FineReader der Firma ABBYY.
Ausgangspunkt für diese Beschreibung ist eine Seite aus der Zeitschrift PrePress.

Sie ist aus drei Spalten aufgebaut. Oben rechts und unten links und rechts befinden sich Grafiken. Der Rest ist Text. Beachten Sie, dass links neben der Grafik oben rechts eine Erläuterung steht, die nicht zur darunter beginnenden Spalte gehört. Unser Ziel ist es, aus dieser Grafik den Text zu extrahieren und eine Word-Seite aufzubauen, die möglichst genau so eingeteilt ist wie die Ursprungsseite.
Legen Sie die Seite in den Scanner, und starten Sie den FineReader.

Drücken Sie über der dunkelgrauen Fläche den Knopf Scannen. Das Bild wird gescannt.


Jetzt können wir die Seite interpretieren lassen. Dazu drücken wir den Knopf Lesen, und wir erhalten folgendes Bild (Ausschnitt):

Hier kann man bereits Korrekturen am gelesenen Text vornehmen. Wir wollen den Text jedoch sofort in das Word-Format umwandeln. Dazu drücken wir den Knopf MS Word. Word wird automatisch gestartet und die gelesene Seite dahin übertragen.
Das Ergebnis ist überzeugend. Von Word verkleinert sieht die Seite so aus.

Ich überlasse es Ihnen, die Fehler in der vom FineReader gelesenen Seite zu suchen.