Maik(62 Beiträge)
27.09.2024 16:46:42
DMS und OCR-Erkennung
Hallo,
ich hatte schon mal im Release-Manager einen Eintrag gesetzt oder ein Ticket erstellt, mit dem Ergebnis, dass es keine wirkliche Lösung gab zu folgendem Problem.
Wir haben mittlerweile bei zwei "Lieferanten" das Problem, dass die PDFs die ans DMS per Mail gesendet und vom Server verarbeitet werden nicht korrekt dargestellt werden. Es sind weiße Seiten zu erkennen bzw. nur teilweise zu lesen. Bei einem dieser Lieferanten ist das Problem erst seit kurzen zu erkennen. Rechnungen aus früheren Zeiträumen wurden korrekt eingelesen. Mir scheint es so zu sein, als würde was im OCR-Prozess nicht ganz funktionieren. Da sich die Probleme (bei uns) häufen, möchte ich gerne versuchen dem ganzen auf den Grund zu gehen. Vielleicht gibt es ja eine Möglichkeit den OCR-Prozess zu analysieren und zu verbessern.
Mithilfe von ChatGPT habe ich versucht eine genauere Antwort dafür zu finden, da ich mit dem strukurellen Aufbau von PDFs nicht vertraut bin und dies auch recht komplex erscheint. ChatGPT hat die beiden Dateien verglichen und kam zu diesem Ergebnis:
"Die Textanalyse der beiden Dokumente zeigt Unterschiede:
Aktuelles PDF (2024): Das aktuelle PDF scheint leer zu sein, was darauf hindeutet, dass es möglicherweise als Bild oder in einem nicht-standardmäßigen Format vorliegt.
Vorjahres-PDF (2023): Der Text aus der 2023er Rechnung wird vollständig und korrekt extrahiert, was darauf hinweist, dass es sich um ein standardmäßiges PDF mit zugänglichem Text handelt.
Das Problem könnte also auf eine Änderung in der Art und Weise zurückzuführen sein, wie die aktuellen Rechnungen erstellt oder gespeichert werden. Wenn sie als Bilddateien vorliegen, ist es für OCR-Systeme deutlich schwieriger, den Text zu erkennen. Es wäre gut, zu überprüfen, ob sich der Erstellungsprozess der PDFs seit dem letzten Jahr verändert hat (z.B. andere Software oder Einstellungen).
Ein Ansatz wäre, das aktuelle PDF in ein textfreundlicheres Format zu konvertieren oder es neu zu erstellen, um diese Probleme zu vermeiden. Alternativ könnte man auch das Dienstleistungsunternehmen bitten, das Problem genauer zu untersuchen, wenn du vermutest, dass der OCR-Prozess auf deren Seite das Problem ist."
Ich stelle auch mal hier die Dateien zur Verfügung. Der zweite Lieferant ist Google und hier funktioniert es auch nicht wie es soll.