Vom Papier zum PDF - Digitalisierung gedruckter Werke am Beispiel der NStPr

Details: Geschrieben von: Dr. Detlef Peitz

aus: NStPr 64/3 (2016), 72–81.

Was in einem von digitalen Geräten bestimmten Zeitalter nicht in digitaler Form vorliegt, verschwindet im analogen Nirwana und wird wohl nur noch von wenigen Freaks genutzt werden. Bezüglich alter Zeitschriftenartikel gibt es nun schon seit Jahren die Möglichkeit, sich über Dokumentenlieferdienste pdf-Kopien von Texten per Mail zuschicken zu lassen. Die recht hohen Kosten schrecken jedoch viele ab, und zumeist begnügt man sich mit dem, was schon online verfügbar ist.

Nicht anders ist es auch bei Artikeln unserer Zeitschrift: So kommen auf der Homepage unseres Verbandes veröffentlichte Artikel im ersten Jahr auf durchschnittlich 500 Seitenaufrufe, die ersten Artikel haben nach vier Jahren Onlineverfügbarkeit sogar die 10 000er-Marke geknackt, die Zahl der Bestellungen alter Hefte über die Homepage liegt dagegen im einstelligen Bereich, obwohl mittlerweile auf viele ältere, aber nach wie vor nicht überholte Aufsätze in Wikipedia und sich die von unserem Kollegen Henning van de Loo erstellten Inhaltsverzeichnisse der Neuen Stenografischen Praxis und demnächst auch der Stenographischen Praxis auf der Homepage abrufbar sind und auch von Google und anderen Suchmaschinen indiziert wurden.

Der Weg zur Digitalisierung älterer Artikel ist allerdings sehr umständlich: Zunächst wurde jede einzelne Heftseite auf eine DIN-A4-Seite kopiert; erst dann konnte der Seitenstapel vom Scanner als pdf eingelesen werden. In dem so erstellten pdf-Dokument mussten zunächst einmal Reste von anderen Artikeln auf der ersten bzw. letzten Seite entfernt werden, dann wurde eine Konvertierung in ein Textverarbeitungsprogramm vorgenommen, in dem dann auch Erkennungsfehler korrigiert werden konnten, und schließlich wurde dieser Text auf der Homepage eingestellt, wobei alle Fettungen, Kursivsetzungen, Hochstellungen von Fußnotenzeichen etc. verloren gingen, die dann im Editor des Content Management Systems der Homepage (im Falle unseres Verbandes Joomla!) wieder eingefügt werden mussten.

So stellte sich die Frage, ob statt der Digitalisierung einzelner Artikel es nicht besser sei, gleich ganze Hefte der Neuen Stenografischen Praxis zu digitalisieren. Hierbei spielen drei von den eben erwähnten Arbeitsschritten eine wichtige Rolle, die sich gegenseitig bedingen: zunächst einmal der Scan-Vorgang an sich, dann die Erkennung des gescannten Textes und schließlich die Formen der Bearbeitung und digitalen Verpackung des Endproduktes, wobei hier zum PDF-Format gegriffen werden sollte, da es mittlerweile als ISO-Norm standardisiert ist und somit auf allen Rechnerplattformen (Windows, MAC, iOS, Android und Linux) und unabhängig von der verwendeten Hardware auf PC, Tablet, Smartphone, E-Book-Reader etc. dargestellt werden kann, frei skalierbar und nach einer entsprechenden Texterkennung auch durchsuchbar ist.

Scan-Vorgang

Dank moderner kombinierter Kopier-/Scangeräte mit automatischem Einzug lassen sich Hefte und auch Bücher recht einfach scannen. Im Fall der Neuen Stenografischen Praxis werden Dubletten am Rand mit einer Schneidemaschine aufgeschnitten, sodass Einzelblätter vorliegen, die Umschlagseiten werden beiseitegelassen. Auf hochwertigem Papier gedruckte weiße Seiten werden doppelseitig in Graustufen als PDF gescannt, bei angegrautem oder holzhaltigem Papier wählt man noch „Verfärbung entfernen“ in einer mittleren Stufe aus. Je kleiner der gedruckte Text, desto höher sollte die Auflösung gewählt werden, um im nächsten Schritt eine möglichst gute Texterkennung zu erzielen. Bei der im vorhandenen Scanner maximalen Auflösung von 300 dpi ist das automatisch erstellte PDF bei einem Heftumfang von 32 Seiten ca. 3 MB groß, also durchaus handhabbar.

Dem Problem, dass es bei automatischem Einzug von mehreren Seiten in den Scanner, womöglich noch als beidseitig bedruckte, häufig dazu kommt, dass einzelne Seiten nicht hundertprozentig im rechten Winkel beim Scannen eingezogen werden, beheben zum Glück gute Texterkennungsprogramme dadurch, dass sie vor der eigentlichen Texterkennung erst einmal eine Begradigung der Scans vornehmen.

Der Scan eines Heftes dauert dabei circa fünf Minuten.

Texterkennung per OCR

Um nun mit einem PDF-Dokument wirklich arbeiten zu können, sprich es durchsuchen und gegebenenfalls auch Teile daraus per Copy-and-Paste kopieren zu können, ist es unabdingbar, eine Erkennung des nur als Bilddatei bzw. Rastergrafik vorliegenden gescannten Dokuments vorzunehmen. Hierzu ist das als OCR (Optical Character Recognition) bezeichnete Verfahren entwickelt worden. Im Endnutzerbereich tätig sind hier die Firmen Nuance mit den Programmen OmniPage [verwendet wurde die Version 18; es gibt mit Ultimate hier ein weiteres Produkt] und Power PDF [getestet wurde die Version 1; seit Herbst 2016 gibt es die Version 2], Abbyy mit FineReader [getestet wurde die Version 12; seit Januar 2017 gibt es die Version 14], Canon mit Readiris [getestet wurde die Version 15; seit Frühjar 2017 gibt es die Version 16], und Adobe, der PDF-Pionier, mit Acrobat DC (also der Vollversion, nicht dem Reader). Das Anforderungsprofil für die Texterkennungssoftware ist dabei nicht nur, den Text zu erkennen, sondern auch das Layout der Originalseiten der Neuen Stenografischen Praxis möglichst getreu beizubehalten, also zum Beispiel Absätze, Fußnoten, Tabellen und Auflistungen originalgetreu zu visualisieren.

Viele OCR-Programme wie auch Adobes Acrobat lösen diese Anforderung in der Art, dass sie nach wie vor das Originalbild des Scans zeigen und den erkannten Text in einem sogenannten Second Layer hinterlegen. Beim FineReader besteht zum Beispiel die Auswahl zwischen „Text über dem Seitenbild“ und „Text unter dem Seitenbild“, bei Power PDF ist standardmäßig unter Einstellungen „Originalbild beibehalten“ ausgewählt, bei ReadIris heißt es „durchsuchbare pdf“, „Text hinter Bild“, „Text vor Bild“. Diese Verfahren haben aber zum einen eine recht große Datei zur Folge - bis zu 10 MB für eine Ausgabe der Neuen Stenografischen Praxis -, zum anderen werden im Original schon schlecht gedruckte Buchstaben nur umrissartig, fleckig bzw. mit Schatten dargestellt, und außerdem sieht man, wenn das Originalbild im Vordergrund ist, nicht, was genau erkannt wurde.

Wer aus einem PDF schon einmal Text in ein Textverarbeitungsprogramm kopiert hat, hat sich sicherlich schon einmal darüber gewundert, welche Fehler und falschen Schreibweisen und lustigen Formatierungen auf einmal auf dem Bildschirm erschienen. Ein kleiner Vergleich von drei willkürlich genommenen Programmen mag dies anhand des ersten Artikels der Neuen Stenografischen Praxis aus dem 2. Heft des Jahres 1959 verdeutlichen:

Acrobat DC (per Copy and Paste erzeugter Text)	Foxit Phantom PDF (in völlig anderer Schriftart)	ReadIris 15
VOIIl Josef Branden ib ru r g (Kö1n)	Von Josef Brandenburg {Köln)	Von Josef Branden g (Kö.ln)
Das Grundpiroblean der Rechtschrei!b:umig, die ständiige Ve't'sichlieden-heit von Sp achentwicklun1g und RechtschreiibregelWlg, wird iim Bit'ock-hiaus vio1n 1903, nachdem ,geriaide unse11e heuti,ge, gegen ,vorher nur geringfögi,g geänd,erte Rechts,chrei,b,u ng ein,ge,führr-t wor,den. war, folgen-der,maßen. ,gekennzeichnet:	Das Grurudp,roblern der Rechtschreibung, .die ständige Verschieden¬ heit von Sprachentwicklung und Rechtschreibregelung, wird im Brock- haus von 1903, nachdem gerade unsere heutige, gegen vorher nur geringfügig geänderte Rechtschreibung eingeführt worden war, folgen¬ dermaßen gekennzeichnet:	Das Grundproblem der Rechtschreibung, die ständige Verschiedenheit von Sprachentwicklung und Rechtschreibregelung, wird im Brockhaus von 1903, nachdem ,ger,ade unsere heutige, gegen vorher nur geringfügig geänderte Rechtschreibung eingeführt worden war, folgendermaßen gekennzeichnet:

Der Idealfall wäre also, annähernd das Originallayout zu bekommen, aber mit gut lesbaren Schriftzeichen. Adobes Acrobat bietet zwar eine Vielzahl an Möglichkeiten, das als Bild vorliegende Schriftbild zu verbessern und die PDF-Dateien zu komprimieren, aber damit kommt man nicht an die Klarheit von aus Computerdateien erstellten PDFs heran, deren Buchstaben eben nicht als Bilder, sondern vektoriert erstellt werden. Außerdem lässt, wie in der Tabelle zu sehen, die Erkennungsgenauigkeit zu wünschen übrig und die Dateigröße lässt sich gegenüber dem Originalscan im Idealfall um den Faktor 4 reduzieren, während sich bei reinem PDF-Text eine Reduzierung um mehr als den Faktor 10 erzielen lässt. Somit verbleiben für die OCR-Erkennung nur noch vier Programme in der engeren Wahl, nämlich OmniPage 18 sowie Power PDF 1.0 von Nuance, der FineReader 12 von Abbyy und ReadIris 15 von Canon.

Nuance bietet mit dem OCR-Programm OmniPage und der Konvertierungssoftware Power PDF gleich zwei Programme, um solche layoutgetreuen Texte zu erhalten. Das Problem der unterschiedlich großen Wortzwischenräume bei Blocksatz lösen die beiden Programme dabei in der Form, dass sie bei gleicher Punktgröße der Schrift die Buchstabengröße der Wörter um bis zu 20 Prozent vergrößern oder verkleinern.

Der FineReader von Abbyy, der in der Genauigkeit der Erkennung von Buchstaben zum Teil exaktere Ergebnisse als die Nuance-Programme bietet, schafft es dagegen im entsprechenden Speichermodus „Nur Text und Bilder“ nicht, den Titel unserer Zeitschrift mittig zu setzen und die Linien vor den Fußnoten einzufügen. [Anmerkung: Dies traf auf FineReader 12 zu, die neue Version 14, die nach Veröffentlichung dieses Artikels im Januar 2017 erschien, bietet entsprechende Funktionen]

ReadIris liefert bei „PDF-Text“ zwar eine kleine Datei, aber mit vielen Fehlern, die zum Teil in der Variante mit durchsuchbarem Text nicht vorhanden sind, und groben layoutmäßigen Mängeln: So wird die Buchstabengröße in Wörtern zum Teil um das Doppelte herauf- bzw. herunterskaliert; außerdem führt das Kopieren des auf diese Weise erkannten Textes in eine andere Anwendung dazu, dass alle Leerschritte weggelassen werden. [Anmerkung: Auch hier gibt es mit Readiris 16 seit 2017 eine verbesserte Version]

Bei OmniPage und Power PDF dagegen variiert manchmal leicht die Punktgröße der Schrift zwischen Absätzen, aber auch in Absätzen zwischen kursiv- und fettgedruckten Teilen sowie normalem Text. Da es sich aber nur um 0,5 Pkt. handelt, ist das wesentlich weniger auffällig als ein Schriftartwechsel oder Größenskalierungen innerhalb von Wörtern.

Alle Programme versuchen jeweils, eine Schrift zu wählen, die der Ursprungsschrift möglichst nahe kommt. Hier besteht aber das Problem, dass die von den Bleisatzmaschinen verwendeten Schriften sich selten als Computerschriften wiederfinden. Die OCR-Programme nehmen dabei standardmäßig die Schriftartbestimmung selber vor, was dann hinterher im fertigen PDF sehr unschön aussieht und sich auch schlechter lesen lässt. ReadIris wählt, wie oben gezeigt, durchgehend TimesNewRoman als Schriftart; allerdings hat diese Schriftart mit der Ausgangsschriftart nicht viel zu tun. Power PDF wählt sogar von Absatz zu Absatz eine Schriftart, die nach internen Programmroutinen irgendwie zu der erkannten passen soll. Das hat zur Folge, dass in einer Zeitschriftenausgabe auf aufeinanderfolgenden Seiten unterschiedliche Schriftarten zwischen Titel, fettgedruckten Überschriften, kursiv gesetzten Textteilen sowie auch Absätzen erscheinen, zum Beispiel TimesNewRoman, dann Garamond und schließlich auch noch Bookman Old Style.

OmniPage dagegen ist bis dato das einzige Programm, das die Festlegung auf eine bestimmte Schrift ermöglicht (unter Einstellungen -> Optionen -> Schriftartzuordnung) [Anmerkung: FineReader 14 bietet diese Möglichkeit auch]. Die Schriftarten, die im Zeitalter des Blei- oder Maschinensatzes verwendet wurden, sind allerdings in den seltensten Fällen auf einem Computer installiert. Mit den neueren Versionen ab Windows 7 ist allerdings standardmäßig die Schrift Cambria installiert, die sehr harmonisch mit der in den Heftjahrgängen bis in die 1970er-Jahre gewählten Schrift übereinstimmt. Für das sich anschließende Foto- bzw. Computersatzzeitalter wurde auf Bookman Old Style zurückgegriffen.

Layoutgetreue Erkennung als reines PDF mit OmniPage

Sinnvoll ist es, die Arbeitsschritte von OmniPage (Einlesen, OCR-Erkennung, Speichern) nicht vollautomatisch ablaufen zu lassen, sondern jeweils manuell zu starten. Nach dem Einlesen kann man so vor der eigentlichen Texterkennung die von OmniPage automatisch vorgenommene Aufteilung in Bild- und Textbereiche noch einmal kontrollieren. Es werden nämlich auch Bilder oder Teile von Bildern als Textvorlage erkannt. So wurden zum Beispiel die in der langjährigen Rubrik „Aktuelle Kürzungen“ enthaltenen stenografischen Zeichen zum Teil als langschriftliche Zeichen interpretiert und dann mit wirren Symbolen statt des stenografischen Schriftbildes dargestellt. Auch Abdrucke aus alten oder fremdsprachlichen Protokollen werden, wenn sie als Textbereiche markiert sind, einer OCR-Prüfung unterzogen, die allerdings aufgrund der fremden Sprache oder der alten bzw. winzigen Schrift zu keinen sinnvollen Ergebnissen kommt. Diese und ähnliche Darstellungen sollten von der Texterkennung ausgenommen und besser gleich als Bilder eingeordnet werden. Schließlich ist es manchmal auch sinnvoll, Textfelder neu zu gruppieren. So wurden Inhaltsverzeichnisse in Form von Tabellenspalten den Textfeldern zugeordnet (links in der Tabelle Inhaltsangabe, rechts die Seitenzahlen); hier erwies es sich als sinnvoller, eine inhaltliche Zuordnung horizontal zwischen Inhaltsangabe und Seitenzahl vorzunehmen.

Fehler bei der Texterkennung und ihre Ursachen

Während die bisher beschriebenen Probleme der Formatierung der geforderten unbedingten Layouttreue zuzuschreiben sind, gibt es bei der Erkennung des gescannten Textes auch eine Reihe drucktechnischer und inhaltlicher Fehlerquellen.

Die Erkennung geschieht bei computergestützt gesetztem Text ab den 90er-Jahren noch recht problemlos, schwieriger wird es bei handwerklich gesetztem Text; hier führen vom Buchsetzer bzw. von den Setzmaschinen (Stichwort „Linotype“) vorgenommene Unterschneidungen und verkleinerte Wortzwischenräume sowie Sperrungen in manchen Fällen zu Fehlerkennungen oder zu stark verkleinerter Darstellung des Textes. Außerdem sind Fehlerkennungen auch dem Original geschuldet. So werden bei den von 1950 bis 1970 in Maschinensatz gesetzten Ausgaben Flecken von Druckerschwärze als Striche, Apostrophzeichen oder Punkte erkannt. Bei den von 1970 bis 1989 im Fotosatz gesetzten Ausgaben werden manche Buchstaben aufgrund eines geringeren Einsatzes von Druckerschwärze nicht richtig erkannt, weil etwa beim „g“ oder beim „f“ Teile zu schwach gedruckt sind.

Neben drucktechnischen Fehlerquellen gibt es aber auch inhaltliche Fallstricke. So werden bei der Texterkennung oft hoch- und tiefgestellte Zeichen (wie in H₂O oder Fußnotenzeichen), typographische Abführungszeichen, Sonderzeichen wie é, č ć ě ½ ₤ etc., Auslassungspunkte, großgeschriebene Umlaute am Wortanfang nicht richtig erkannt oder es kommt zu Verwechslungen, zum Beispiel zwischen dem Zahlwert 0 und dem Buchstaben O, zwischen alleinstehendem Buchstaben l und der Zahl 1, zwischen dem Buchstaben B und der Zahl 8.

Von Nutzen ist hier die Möglichkeit zur Fehlerkorrektur von OmniPage direkt nach der Texterkennung. Bei von OmniPage nicht unzweifelhaft richtig erkannten Begriffen kann man Korrekturen vornehmen, zum Beispiel für eine „6“ richtigerweise „é“, normale Abführungszeichen in typographische ändern. Eine kleine Palette mit Sonderzeichen findet sich dabei ganz unten im Korrekturmodul, das sich nach der Texterkennung automatisch öffnet. Wenn man weitere Sonderzeichen wie typographische Abführungszeichen, „č“, das Promillezeichen etc. benötigt, kann man diese Zeichen zunächst in einem Textverarbeitungsprogramm (zum Beispiel Word über „Einfügen“ –> „Symbol“) in ein normales Textdokument einfügen und von dort aus per Copy-and-Paste an die richtige Stelle im Fenster des Korrekturmoduls. Beim Schließen des Dokuments fragt OmniPage dann, ob vorliegende Trainingsdaten gespeichert werden sollen. So kann man für das entsprechende Scan-Projekt eine Trainingsdatei anlegen, die dann immer weiter verfeinert wird. Zugleich kann man diese Trainingsdatei auch manuell bearbeiten (bei Sonderzeichen wieder mit dem Umweg über eine Word-Datei) und damit für noch weitere Präzision sorgen. Bei der Neuen Stenografischen Praxis war es dabei notwendig, zwei Trainingsdateien anzulegen, einmal für die Zeit des Maschinensatzes und schließlich für die Zeit des Computersatzes.

Aber auch alles Training hilft nicht, um eine völlig fehlerfreie Vorlage zu erhalten. Häufige Erkennungsfehler betreffen folgende Punkte:

Sonderzeichen wie % oder ½ werden nicht als ein Zeichen erkannt, sondern als Zusammensetzungen von Zahlen und Strichen, also etwa 0z0 oder 1/2;
aus Punkten „.“ „Dr.“ „...“ werden Sternchen: „*“, „Dr*“, „.*.“;
es findet sich Fettdruck, wo keiner war, oder Zeichen werden statt kursiv normal dargestellt;
die früher oft benutzte Darstellung einer Fußnote aus Zahl und Klammer wird trotz aller Trainingsbemühungen nicht richtig erkannt, zum Beispiel 7) als ‘), oder die Klammer wird mitsamt dem folgenden Text hochgestellt;
insbesondere bei Text in kleinerer Schriftgröße wie in Fußnoten wird häufig aus dem „i“ ein „l“;
Gesperrt gedruckte Wörter – eine Hervorhebungsart, die im Zeitalter der elektronischen Textverarbeitung fast ganz durch Fett- oder Kursivdruck ersetzt wurde – werden durch Leerschritte zwischen den Buchstaben wiedergegeben, zumeist aber nicht durchgängig, sodass zum Beispiel nach der OCR-Erkennung das Wortbild „Ho l za pf el“ erscheint. Dies sieht nicht nur unschön aus, sondern führt auch dazu, dass man entsprechende Wörter in der fertigen PDF-Datei per Suchfunktion nicht finden kann. Dabei kommt ja gerade gesperrt gedruckten Namen oder Begriffen eine gewisse Bedeutung im Text zu, denn sonst wären sie ja nicht hervorgehoben worden;
manche Wörter halten nicht die Grundlinie der Zeile ein, sondern werden ein klein wenig höher oder tiefer versetzt dargestellt (häufig Folge von schräg gescannten Vorlagen, die vom OCR-Programm nicht hundertprozentig neu ausgerichtet werden konnten). [Anmerkung: Beim Finereader 14 taucht dieses Problem nicht mehr auf]

Für die Behebung solcher Fehler ist nun der Einsatz sogenannter PDF-Editoren sinnvoll.

PDF-Bearbeitung

Da die direkte Bearbeitung von Fehlern oder Versehen in einem PDF-Dokument mit Adobe Acrobat erst seit der Version 11 (veröffentlicht im Oktober 2012) komfortabel möglich war, versuchten viele Firmen mit eigenen PDF-Editoren die bis dahin bestehende Marktlücke auszufüllen. Für unsere Zwecke, wo es um Bearbeitung von Wörtern in größeren zusammenhängenden Textblöcken geht und nicht um die Änderung von Formulareinträgen oder Überschriften, zeigten allerdings alle per 30-day-Trial-Version getesteten Programme (Foxit Phantom, PDF XChange Editor, Perfect PDF9, Infix, cad-kas 5.0, iSkysoft, eXPERT) zwar entsprechende Stärken, die aber zugleich mit deutlichen Schwächen bei den einzelnen Programmen erkauft wurden, sodass sie für unsere Zwecke nicht infrage kamen:

Beim Einfügen von Sonderzeichen wurde nicht das Format des PDF genommen, sondern das des Textverarbeitungsprogramms, aus dem kopiert wurde;
beim Ersetzen von Buchstaben wurde ein kompletter Neuumbruch von Absätzen vorgenommen bzw. der Zeilenabstand auf Standardwerte, also von 0,86 zum Beispiel auf 1 gesetzt, sodass der Originaltext nicht mehr auf eine Seite passte;
Textseiten wurden in ganz viele Textblöcke (in einem Absatz zum Teil mehr Textblöcke als Zeilen), Linienzeichen, Grafiken etc. aufgeteilt, sodass sich fälschlicherweise teilweise fett/kursiv erkannte, aber im Original nur nicht fett/nicht kursiv gedruckte Textblöcke nicht gesamt markieren ließen, um ein einheitliches Format zuzuweisen;
zum Teil waren bei kursiven oder Fettgedruckten Teilen auch noch Steuerbefehle verborgen, sodass das Löschen solcher Wörter zum Einrücken ganzer Absätze oder zum Übereinanderfallen von zwei Zeilen führte.

Ein wichtiger Punkt ist auch, ob die Programme jeweils den neuen Betriebssystemen angepasst wurden. So haben zum Beispiel auf älteren Programmierungen beruhende Programme wie der PDF Converter Professional 6.0 (für den es allerdings mit Power PDF einen Nachfolger gibt) und Infix Schwierigkeiten, mit den neu unter Windows 7 eingeführten Systemschriftarten wie Cambria umzugehen.

Ein insgesamt zufriedenstellendes Gesamttool zur Bearbeitung sowohl von Zeichenformaten (fett, kursiv, hochgestellt etc.) als auch Absatzformaten (Blocksatz, zentriert, links- bzw. rechtsbündig) bietet Adobe mit dem im April 2015 eingeführten Acrobat DC und mit etwas eingeschränktem Funktionsumfang auch mit dem schon genannten Vorgänger, Acrobat XI. Wenn man unter „Werkzeuge“ „PDF-Datei bearbeiten“ wählt, findet man ähnliche Symbolen zur Text- bzw. Dokumentbearbeitung, wie man sie aus Texterkennungsprogrammen gewöhnt ist.

Etwas problematisch ist allerdings vor dem Hintergrund, dass das Layout möglichst beibehalten werden soll, dass bei Korrekturen in einem Absatz, in dem die OCR-Texterkennung versehentlich ein überflüssiges Absatzzeichen eingefügt hat oder wo der Text leicht versetzt dargestellt wird, zumeist auch ein Neuumbruch vorgenommen wird. Dabei umfasst der Textblock auf Seiten, auf denen sich nur Textabsätze befinden (also keine Überschriften), die ganze Seite mit Ausnahme von Fußnoten und Seitenzahl. Eine an sich sinnvolle logische Gliederung; bei größeren Änderungen in einem Absatz werden allerdings auch alle anderen in diesem Textblock befindlichen Absätze neu umgebrochen. Manchmal hat man Glück – eine feste Regel konnte da nicht erkannt werden –, dass Löschversuche entweder mit der Entf-Taste oder der Rück-Taste diesen Neuumbruch verhindern. Man kann probieren, da sich die letzten Änderungen jeweils mit der bekannten Tastenkombination Strg+Z rückgängig machen lassen.

Des Weiteren ist zu berücksichtigen, dass Acrobat, wenn man bei einem fälschlich als rechtsbündig texterkannten Absatz zu Blocksatz umformatiert, feste Wortzwischenräume einfügt, die eine Bearbeitung von mehreren zusammenhängenden Wörtern mit einem anderen Programm nicht mehr zulassen.

Eine Herausforderung stellen auch gesperrt gedruckte Worte dar. Adobe Acrobat bietet zwar die Möglichkeit, über die Funktion AV „Zeichenabstand“ den Abstand zwischen den Buchstaben in einem Wort zu verringern oder zu erhöhen. Die Anwendung dieser Funktion, die dem Original sehr nahe kommen würde, führt allerdings dazu, dass das Wort mit der Suchfunktion nicht mehr gefunden werden kann. So empfiehlt es sich bei Acrobat, auch wenn es nicht ganz so schön aussieht, für im Original gedruckte Wörter die Funktion T „Horizontal skalieren“ zu verwenden.

Mit Power PDF von Nuance dagegen funktioniert bei der Funktion „Zeichenabstand“ (in Viertelschritten von -1 bis +1 sowie +2“) auf ein Wort selbst bei Auswahl eines großen Wertes wie „1“ nachher noch die Suchfunktion. So kann man nach Entfernen der bei Texterkennung eingefügten Leerschritte zwischen einzelnen Buchstaben dann das Wort mit den genannten Funktionen wieder so weit auseinanderziehen, bis der rechte Rand wieder bündig ist. Wenn ein gesperrter gedruckter Begriff allerdings mehr als circa 10 Prozent der Zeile einnahm, kam es häufiger vor, dass zur Herstellung des Blocksatzes schon die Wörter der ganzen Zeile auf hohe Werte über 120 Prozent skaliert wurden. Hier markiert man erst die ganze Zeile, setzt die Skalierung auf einen der angezeigten Standardwerte herunter und verfährt dann, wie oben dargestellt.

Um bei Power PDF die Editierfunktion ohne Konvertierung des PDF zu erreichen, klickt man das Menü „Bearbeiten“ an und wählt „Objekt bearbeiten“ aus. Wenn man jetzt an beliebiger Stelle in den Text klicken, erscheint um diesen herum ein blauer Rahmen und man kann den Text in diesem Rahmen mit der Tastatur bearbeiten. Dabei passt Power PDF die Formate und sogar die Schriftart automatisch an die umgebenden Wörter an. Wenn also ein Wort falsch formatiert wurde, so löscht man dieses Wort jeweils mit den angrenzenden letzten und ersten Buchstaben der richtig formatieren Wörter und kann dann das Wort gleich richtig formatiert neu schreiben. Auch eine leichte Höhenverschiebung von Buchstaben oder Wörtern innerhalb einer Zeile kann man so heilen. Man muss allerdings aufpassen, dass man nicht über den Zeilenrand hinauskommt, denn dann wird automatisch der Textrahmen erweitert. Der Text wird zwar in Power PDF nicht umgebrochen, allerdings beim Öffnen in Acrobat und anderen Programmen dann an diesen größeren Rahmen angepasst, sodass das Originallayout verloren geht.

Erweiterte Möglichkeiten, um Schriftarten und -größen zu verändern, erhält man, wenn man ein entsprechend markiertes Wortes mit der rechten Maustaste anklickt, aus dem sich öffnenden Menü „Eigenschaften …“ auswählt und in dem dann erscheinenden Fenster den Reiter „Text“ anklickt. Neben der oben schon dargestellten Möglichkeit, den Zeichenabstand zu verändern, kann man auch den Text skalieren sowie die Textgröße verändern. Fettgedruckte und kursive Zeichen erhält man, wenn man die entsprechende Schriftart, also Cambria,Bold oder Cambria,Italic, auswählt, also ein wesentlich umständlicherer Weg als bei Acrobat und anderen PDF-Editoren.

Ein weiterer, eher verborgener Vorteil von Power PDF gegenüber Acrobat ist, dass man auch nach falsch formatierten Zeichen, zum Beispiel einfache statt typographische Anführungszeichen, suchen kann. Ein Wechselbefehl, der für ganze Wörter bei Acrobat vorhanden ist, fehlt leider bei Power PDF. Das einzige Programm, das eine Suchen-Ersetzen-Funktion auch für typographische Zeichen bietet, ist Infix, leider findet beim Vorgang des Ersetzens ein Neuumbruch der Zeilen und dann auch der Seiten statt, sodass diese Funktion für unsere Zwecke nicht einsetzbar ist.

Ein zentraler Punkt schließlich ist die Möglichkeit, die Größen von PDF-Dateien zu optimieren. Die PDF-Spezifikation erlaubt sowohl die Komprimierung von Daten als auch die Schaffung komplexer Verbindungen zwischen den Daten, sodass Daten eines Objekts, das mehrfach im Dokument vorhanden ist, nur einmal in der Datei abgelegt werden müssen. Hier hat Acrobat DC mit seiner Funktion „Dateigröße verringern“, die immer angewählt werden kann, wenn „Speichern unter …“ gewählt wird, die Nase vorn. Bei Power PDF kann man im Menü „Start“ unter „Datei verkleinern“ zwischen den Optionen „Optimieren“ und „Aktuelle Datei verkleinern“ wählen. Das Ergebnis bei beiden Möglichkeiten war bei unseren Textdateien das gleiche: Die Enddateigröße war jeweils mehr als 10 Prozent größer als unter Acrobat.

Ein letzter Arbeitsschritt sei noch empfohlen: Man sollte bei ungleichmäßigen Seitengrößen, wie sie sich durch den unterschiedlich breiten Rand von linker und rechter Seite ergeben, die Seiten so bearbeiten, dass der breitere Seitenrand auf das Maß des schmaleren Seitenrandes beschnitten wird. Hier kann man sowohl bei Power PDF (unter „Bearbeiten“ -> „Beschneiden“) als auch bei Acrobat (unter „Dokument“ -> „Mehr“ -> „Seitenrahmen festlegen“) das Beschneiden millimetergenau getrennt für gerade und ungerade Seiten vornehmen.

Auf die hier beschriebene Art und Weise, die in der Tat neben Herumprobieren und Experimentieren auch eine gewisse Arbeit in Form von Korrekturlesen abverlangt, was aber bei interessantem Inhalt auch den eigenen Wissenstand erhöht, erhält man sehr kleine Dateien (um die 10 KB pro Seite) mit klar und scharf dargestellter Schrift, sodass Lesegenuss auch auf mobilen Geräten wie Tablets, Handys und E-Book-Readern gegeben ist. Im internen Bereich der Homepage werden nach und nach aus diese Weise gescannte, texterfasste und bearbeitete Ausgaben der Neuen Stenografischen/Stenographischen Praxis eingestellt. In einem weiteren Schritt soll dann jahrgangsweise die Verknüpfung mit den Jahresinhaltsverzeichnissen über Sprungmarken im PDF geschehen. Die Erfahrungen damit werden dann in einen weiteren Aufsatz zu diesem Thema einfließen.

Produktüberblick (Stand: Oktober 2016)

Wer ein ähnliches Digitalisierungsprogramm für eigene Zeitschriften oder Bücher plant, dem sei noch der ungefähre finanzielle Rahmen angegeben: OmniPage Ultimate erhält man in der neuesten Version auf der Homepage des Herstellers Nuance für knapp 200 Euro, wobei es bei Aktionen des Herstellers zweistellige Rabatte gibt; OmniPage 18 bekommt man für gut die Hälfte. Adobe bietet Acrobat DC als Jahresabo für 15,46 Euro im Monat an, ansonsten kostet die Version regulär über 300 Euro. Auf den üblichen Handelsplattformen im Internet bekommt man den Key für eine Einzelplatzlizenz, zum Beispiel aus einem Softwarebundle mit einem Scanner, aber auch schon einmal für gut die Hälfte des Preises, allerdings nur die Standard-Version, nicht die Professional-Version, die z. B. Schriftglättung in Scan-Bildern ermöglicht. Bei Power PDF von Nuance brauchte man bisher für die spezielle Editierfunktion ohne vorherige Konvertierung der durchsuchbaren PDF die Advanced-Version. In der neuen Version Power PDF 2.0, die seit Herbst 2016 auf dem Markt ist, reicht die Standard-Version für knapp 100 Euro (ähnliche Rabattpolitik wie bei OmniPage), in der „Objekt bearbeiten“ sogar sowohl im Menü „Start“ als auch im Menü „Bearbeiten“ aufgeführt wird. Diese Variante bietet jetzt auch die Funktion, die OCR-Texterkennung via Korrekturmenü und persönlichem Wörterbuch zu verbessern; Schriftartfestlegungen und Zuweisungen von Text- und Bildbereichen für ein ganzes Dokument sind allerdings nach wie vor nur mit dem Programm OmniPage vom gleichen Hersteller möglich.