In der Prozesstechnik werden Anlagen mit Hilfe von Rohrleitungs- und Instrumentenfließschemata abgebildet. Diese Schemata enthalten Information zur Art und Bezeichnung der Apparate, zu den Verbindungen der Apparate mittels Rohrleitungen sowie zu den Aufgaben zum Messen Steuern und Regeln.

Um die Apparate aus R&I-Fließbildern zu erkennen wird ein neuronales Netz verwendet, welches auf die in DIN EN ISO 10628 beschriebenen Elemente trainiert ist. Da beim Scannen von R&I-Fließbildern mit üblichen Scanartefakten zu rechnen ist werden die Elemente zum Training des Netzes wie folgt erstellt. Zunächst werden die Elemente normgerecht als Vektorgrafik beschrieben. Diese Vektorgrafik wird in Linienstärke und Farbe der Elemente variiert. Anschließend werden die Bilder um Scanartefakte wie Rotationen, Bildrauschen und Verzerrungen ergänzt und für das Training gerendert.

OCR

Zusätzlich wird zum Erkennen der Elementsymbole, die im R&I-Fließbild vorhandene Schrift ausgelesen und ausgewertet. Dies umfasst sowohl die Beschriftung der einzelnen Elemente, als auch die Aufgabe der Einrichtung zum Messen, Steuern und Regeln.

Für die Schrifterkennung wird ein Algorithmus verwendet, der im ersten Schritt versucht, alle langen Linien im Bild, die wahrscheinlich keinen Text darstellen zu entfernen. Anschließend wird das Bild durch morphologische Operationen weiter bearbeitet, sodass die Bereiche, welche Text beinhalten herausgestellt werden können.

Mittels Tesseract werden anschließend die Texterkennung der erkannten Bereiche durchgeführt. Der erkannte Text wird inklusive seiner Position in einer Excel Tabelle abgelegt und für die weitere Verwendung gespeichert.

Nachdem die Objekte und der zugehörige Text erkannt wurden wird eine Zuordnung durchgeführt. Hierbei werden die Abstände zwischen den Objekten und dem Text, sowie syntaktische Kriterien zur Zuordnung verwendet.