Software zum einlesen von altdeutscher Schrift gesucht

Rossy

gehört zum Inventar
Ich muss für eine andere Internetseite einige Buchseiten (150) die in altdeutscher Schrift gedruckt sind abscannen und den Text erkennen.

Habt ihr Ahnung was für eine Software am besten dafür geeignet ist?
 

salayna

nicht mehr wegzudenken
Du solltest es eintippen, das geht schneller.

Eine OCR-Software auf Fraktur-Schrift zu trainieren ist eine aufwendige Sache, und das Kontrollieren erst recht. Wenn Du es eintippst, bist du eindeutig schneller und fehlerärmer.


salayna
 
D

Delwin

Gast
Viel mehr als das Folgende kann ich Dir leider auch nicht sagen, weil ich direkt noch nicht mit dem Problem konfrontiert war. Ein früherer Bekannter gab mir mal (inhaltsgemäß) folgende Statements ab:

Die einzige OCR, die Fraktur lesen könnte. ist nach meiner Meinung ProLector (Improx).
Es gibt dort keinerlei vorgegebenen Zeichensatz, so dass man jedes einzelne Zeichen trainieren kann/muss. (Wie salayna erwähnt hat, ist das eine Schweinearbeit.) Unter Umständen kannst Du hier mit verschiedenen Makros arbeiten, z. B. um Infinitive über einen kleinen selbstgedrechselten Dialog zu definieren. Beim Umsetzen solltest Du daran denken, dass Fraktur auch nicht im ASCII-Zeichensatz enthalten ist

Außerdem könnte man es mit dem FineReader (Abbyy) und dem XIX-Modul probieren. Von anderer Seite weiß ich, dass dieses mir unbekannte (wohl ältere) Modul hauptsächlich zum Einlesen kyrillischer Schriftzeichen benutzt wurde.

Von OmniPage ist mir in Richtung Fraktur nichts bekannt.

Generell glaube ich, mit diesem sehr speziellen Problem solltest Du mal alle etwas bekannteren OCR-Entwickler anmailen. Wenn Du von den Antworten die Reklame subtrahierst, erhältst Du wahrscheinlich doch ein paar entscheidende Hinweise. Würde mich freuen, wenn Du bei Erfolg hier mal drüber berichtest.

Edit: Wenn der Text nicht unbedingt erkannt, sondern nur abgebildet werden muss, ist es einfacher. Vielleicht gibt es ja eine Lösung mit Hot Spots auf den imgs.
 

Rossy

gehört zum Inventar
Also ABBYY 4.0 war bei meinem Scanner dazu. Dieses Programmversion ist dazu nicht in der Lage.

Kostprobe:

l. Orange.
Soäi ^orf <Rohrät)eit^lnitber2 Shiometer öftlid) baoon gelegenen
foniglid) preuBil'c^n a>oimne SSefterburg geboren je$t gum Sonbtretfe
^alberftobt. 3" a^e^ 3^ gehörten fie ^um §a.T%au, beffen ©rensen ün
©üben her ®e£irg^(amm beä ipar^eä jloifdien Mabau unb S3obe, im SBeften
bie Cfer, im korben baä ©roße stuc^ unt> im Dpen. bie S8obe fiilbeteit. SMe
SRo^Tä(>eim.SS(kfter6urqer gelbmart lag öafycr an ber ®aiigrenje nac^ Slorben
yi, rt»o ficf) oom ©rogen Srud; ab (biird> je^iäeä &rauni"cf)treigiid)eä ®e6iet)
bem Gtme su ber '^'artingau (im.^og.
Sßon ben 6raunfd)toeigifd)en 9taff)6aTörtern @tDB- unb ^Iein-®innig-
ftebt, ®eoen&[e6ni unb Seierftebt iDaren So^Tä^eim-ffiei'tcTfiurg buT<^ baä
(agunenartige (yroge Srud) faft üollftänbig gef(f)ieben, fo bag eine ftänbige
SBer&inöung nur mit ben üulid)en, iüi>lid)en unb tüeftiid^en 9ta<f)6arörttrn
möglid) toar. ®egenioärtig finb biee: iilfein- unb @roB-'S<be(e6en, Sogelä-
borf, SBabersleben, 'SaTües^eim, 'Zeer^f>eim unb ^effen. G^emaiä aber
famen f)in^u bie jt^igen SSüftungen 9?attoif, 93at)nenburg, 9?einborf, ®lü-
fingen, Siein- unb QroB-Uplingen, foloie im St.-SB. büä etexrä fragli<f»e
.
:rolleyes:

Ich habe aber gelesen das die Version 7.0 um das um einiges besser macht. Das Update kostet aber 85,- € und ich weiß nicht mal ob´s wirklich geht. Eine Demo findet man nicht. Also werde ich wohl anfangen mit dem Abtippen :crazy
 
D

Delwin

Gast
Das sieht wirklich nicht gut aus. Tut mir ja echt leid. Du könntest noch bei Deiner örtlichen Tageszeitung in der Redaktion nachfragen, oder vielleicht kennst Du ja jemanden, der als Dokumentar oder Archivar in einem staatlichen oder städtischen Archiv arbeitet.
Unter Umständen fragst Du mal beim Kirchenarchiv (wenn´s ne Großstadt ist) Die haben da manchmal ganz feine Sachen. Viel Glück! :)

P.S.: Hast Du mal im FineReader nach diesem ominösen Modul XIX geschaut?
 

Rossy

gehört zum Inventar
Das hier habe ich zu Modul XIX gefunden:

ABBYY FineReader XIX: Erkennung von Frakturschrift

FineReader 7.0 bietet die erste Omnifont OCR-Lösung zur Erkennung von Frakturschrift in Texten aus dem 19. und 20. Jahrhundert. FineReader erkennt kunstvolle, kalligraphische Schriftzeichen und alte romanische Buchstaben wie z.B. das verlängerte „s“ in englischen oder französischen Texten. Dieses Modul, das für das europäische METAe Archivierungsprojekt entwickelt wurde, wird bereits von bekannten Universitäten getestet. FineReader XIX ist hervorragend für die Archivierung einer Vielzahl alter Bücher und Dokumente geeignet und enthält Wörterbücher für Deutsch, Englisch, Französisch, Italienisch und Spanisch.

Bin ja im Moment noch am einscannen. Mal sehen wie ich mit dem Abtippen zurecht komme. Wenn das auch nicht vorran geht muss ich halt das Programm kaufen.
 

salayna

nicht mehr wegzudenken
Ach, so schlimm ist das abtippen gar nicht. Das geht meist flotter und besser als man vorher denkt. Außerdem ist es ein gutes Training für die Finger.

Den FineReader in Version 4 kannst du nicht mehr mit der Version 7 vergleichen. Bei OCR-Programmen hat sich innerhalb der letzten Jahre einiges getan.

Das Problem bei Fraktur ist der minimale Unterschied zwischen dem stimmlosen s und dem kleinen f. Da kannst du trainieren wie du willst, es wird immer Fehler geben. Einen Text jedoch auf solche Fehler hin zu überprüfen, ohne daß dir einer durch die Lappen geht, ist ein nicht zu verachtender Aufwand. Weiterhin gibt es Probleme mit großen Anfangsbuchstaben, die in Fraktur oft recht Schwungvoll gestaltet werden. Ligaturen machen auch häufig Probleme, da das OCR-Programm oft nicht unterscheiden kann was zusammengehört und wo ein Buchstabe aufhört. Zuletzt wirst du sicher daran verzweifeln, daß das kleine u oft für zweimal t angesehen wird; wenn du Glück hast wird das u aber nur als n erkannt. ;)


salayna
 

avv

Erster Beitrag
einscannen von altdeutscher Schrift

Hallo,

ich habe den Schriftwechsel interessiert gelesen, da ich alte Familienchroniken digitalisieren m?chte.
Meine Frage ist nun, gibt es Erfahrungen zum Thema Erkennen von altdeutscher Schrift? Wenn ja mit welcher Software? :confused
 

salayna

nicht mehr wegzudenken
Prinzipiell ist das Erkennen von Frakturschrift sehr gut möglich. Dieses sieht man, wenn man im FineReader Version 7 von Abbyy einen Fraktur-Text im Training erkennen läßt. Nach ca. 2 Buchseiten Training wird jeder einzelne Buchstabe korrekt erkannt. Läßt man danach allerdings die antrainierte Texterkennung über die gescannten Buchseiten laufen, kommt nur Müll dabei raus. Meine Theorie besagt daher, daß OCR-Programme durchaus in der Lage sind Fraktur zu erkennen, jedoch im Falle des FineReader 7 eine Sperre eingebaut ist, da sonst das sehr sehr teure Fraktur-Modul, das die Firma für ca. 1.000 Euro pro 10.000 gescannten Seiten anbietet, nicht mehr gekauft werden würde. Versuche mit dem Programm Omnipage, in der aktuellen Version, ließen mich auch nicht gerade begeistert sein, was die Erkennrate betrifft.

Alles in allem tippe ich im Moment lieber ab, als einen halberkannten Text zu vergleichen, da es vom Aufwand beides vergleichbar ist, das tippen jedoch weit fehlerärmer ist.


salayna
 
Oben