DMS und OCR-Erkennung [#1070]

Maik
(62 Beiträge)
27.09.2024 16:46:42

DMS und OCR-Erkennung

Hallo,

ich hatte schon mal im Release-Manager einen Eintrag gesetzt oder ein Ticket erstellt, mit dem Ergebnis, dass es keine wirkliche Lösung gab zu folgendem Problem.

Wir haben mittlerweile bei zwei "Lieferanten" das Problem, dass die PDFs die ans DMS per Mail gesendet und vom Server verarbeitet werden nicht korrekt dargestellt werden. Es sind weiße Seiten zu erkennen bzw. nur teilweise zu lesen. Bei einem dieser Lieferanten ist das Problem erst seit kurzen zu erkennen. Rechnungen aus früheren Zeiträumen wurden korrekt eingelesen. Mir scheint es so zu sein, als würde was im OCR-Prozess nicht ganz funktionieren. Da sich die Probleme (bei uns) häufen, möchte ich gerne versuchen dem ganzen auf den Grund zu gehen. Vielleicht gibt es ja eine Möglichkeit den OCR-Prozess zu analysieren und zu verbessern.

Mithilfe von ChatGPT habe ich versucht eine genauere Antwort dafür zu finden, da ich mit dem strukurellen Aufbau von PDFs nicht vertraut bin und dies auch recht komplex erscheint. ChatGPT hat die beiden Dateien verglichen und kam zu diesem Ergebnis:

"Die Textanalyse der beiden Dokumente zeigt Unterschiede:

Aktuelles PDF (2024): Das aktuelle PDF scheint leer zu sein, was darauf hindeutet, dass es möglicherweise als Bild oder in einem nicht-standardmäßigen Format vorliegt.

Vorjahres-PDF (2023): Der Text aus der 2023er Rechnung wird vollständig und korrekt extrahiert, was darauf hinweist, dass es sich um ein standardmäßiges PDF mit zugänglichem Text handelt.

Das Problem könnte also auf eine Änderung in der Art und Weise zurückzuführen sein, wie die aktuellen Rechnungen erstellt oder gespeichert werden. Wenn sie als Bilddateien vorliegen, ist es für OCR-Systeme deutlich schwieriger, den Text zu erkennen. Es wäre gut, zu überprüfen, ob sich der Erstellungsprozess der PDFs seit dem letzten Jahr verändert hat (z.B. andere Software oder Einstellungen).

Ein Ansatz wäre, das aktuelle PDF in ein textfreundlicheres Format zu konvertieren oder es neu zu erstellen, um diese Probleme zu vermeiden. Alternativ könnte man auch das Dienstleistungsunternehmen bitten, das Problem genauer zu untersuchen, wenn du vermutest, dass der OCR-Prozess auf deren Seite das Problem ist."

Ich stelle auch mal hier die Dateien zur Verfügung. Der zweite Lieferant ist Google und hier funktioniert es auch nicht wie es soll.
Alexander Kopp
(78 Beiträge)
27.09.2024 17:22:12

Re.: DMS und OCR-Erkennung

Hallo,

wir haben festgestellt, dass es bei den von den Lieferanten gesendeten PDF-Dateien Unterschiede in der Struktur gibt, die möglicherweise das Problem beim OCR-Prozess verursachen. Nachfolgend eine kurze Analyse der Dateien:

PDF-Version:
Es wurden unterschiedliche PDF-Versionen verwendet, die möglicherweise unterschiedliche Funktionen unterstützen. Die ältere Datei verwendet die PDF-Version 1.4, während die neueren Dateien mit Version 1.7 erstellt wurden. Höhere PDF-Versionen können zusätzliche Funktionen oder Sicherheitsmerkmale enthalten, die Probleme bei der Verarbeitung verursachen könnten.

Metadaten:
Die zweite Datei (613) enthält ausführlichere Metadaten, die im XML-Format vorliegen. Dies weist darauf hin, dass es sich möglicherweise um eine PDF/A-kompatible Datei handelt, die für Archivierungszwecke verwendet wird. Dies könnte ein Hinweis darauf sein, dass das Dokument für OCR-Prozesse besser geeignet ist, da es klar strukturierte Metadaten enthält. Die neueren Dateien scheinen komprimierte oder verschlüsselte Inhalte zu haben, was zu Schwierigkeiten bei der Texterkennung führen könnte.

Software:
Es könnte sein, dass unterschiedliche Programme oder Einstellungen zur Erstellung der PDF-Dateien verwendet werden. Die ältere Datei wurde beispielsweise mit "wPDF4 by WPCubed GmbH" erstellt, einer Software, die sich auf PDF-Erstellung spezialisiert hat. Wenn die neueren Dateien mit anderer Software oder unter anderen Einstellungen erstellt wurden, könnte dies die OCR-Fehler erklären.

Schöne Grüße
tricoma - Get the most out of your business
Maik
(62 Beiträge)
30.09.2024 16:26:45

Re.: DMS und OCR-Erkennung

Jetzt ist die Frage wie man damit künftig weiter macht. Wenn es künftig vermehrt zu solchen Anomalien kommt, wird man lieber OCR vermeiden wollen, da der Ärger wohl immer größer wird als der Nutzen.
Eine Möglichkeit die Texterkennungssoftware zu ändern/verbessern gibt es nicht?
Alexander Kopp
(78 Beiträge)
30.09.2024 17:00:13

Re.: DMS und OCR-Erkennung

Hallo,

Aktuell können leider nicht alle Formate berücksichtigt werden.

Schöne Grüße
tricoma - Get the most out of your business

Seite 1

Kompatibel mit

Folge uns

Einen Augenblick bitte...
Cookie und Tracking
Diese Webseite verwendet Cookies
Cookies werden zur Verbesserung der Benutzerführung verwendet und helfen dabei, diese Webseite besser zu machen.