Jenseits von OCR - Einsatz von KI zum Verständnis komplexer technischer Zeichnungen

Die Maschinenbaubranche sucht seit langem nach technologischen Lösungen zur Automatisierung der Datenextraktion aus technischen Zeichnungen. Die einzige Möglichkeit war bisher die Verwendung von OCR (Optical Character Recognition). Vielleicht haben Sie bereits OCR-Lösungen wie Google Vision oder Amazon Textract ausprobiert, aber bald festgestellt:

 

Eine allgemeine OCR reicht nicht aus, um technische Zeichnungen zu verstehen.

Reine OCR-Lösungen haben zahlreiche Einschränkungen, wenn es darum geht, komplexe Dokumente wie technische Zeichnungen zu verstehen. Schauen wir uns genauer an, wie die KI-Algorithmen von Werk24 die generische OCR bei verschiedenen Herausforderungen übertrafen und eine vollständig automatische Datenextraktion aus technischen Zeichnungen erreichten.

 

Textelemente strukturieren

Die größte Herausforderung für das maschinelle Lesen von technischen Zeichnungen besteht darin, die Bedeutung der einzelnen Textelemente zu verstehen und zu wissen, wann und wie sie in einem strukturierten Datenformat zusammengefasst werden sollen. OCR kann den Text nur auslesen, aber nicht die Bedeutung seines eigenen Ergebnisses verstehen.

In technischen Zeichnungen gibt es viele komplexe Datenformate wie Maße, Form- und Lagetoleranzen und Informationen in Schriftfeldern. Maße werden oft als Nenngröße mit übereinander gestapelten oberen und unteren Abweichungen dargestellt. OCR kann Text nur von links nach rechts extrahieren und ist nicht in der Lage zu unterscheiden, ob es sich um eine Nenngröße, eine obere oder untere Abweichung handelt. Und aufgrund der komplexen visuellen Umgebung macht OCR auch zahlreiche Fehler bei der Gruppierung entsprechender Elemente.

Werk24 hat fortschrittliche Modelle für maschinelles Lernen und KI-Algorithmen entwickelt, um alle gängigen Formatierungen von Maßen mit Nennmaß, Toleranz, Passmaß und Gewinden zu verstehen. Durch das Verständnis der individuellen Bedeutung jedes Elements auf der Grundlage seines Inhalts, Kontexts und seiner visuellen Gruppierung kann die API von Werk24 die richtigen Elemente in strukturierte Daten gruppieren und als JSON-Format zurückgeben, das von Maschinen genutzt und direkt in Ihr Softwaresystem eingespeist werden kann.

Ein weiteres Beispiel ist das Schriftfeld, in dem Beschriftungen (der kleine Text, der den Inhalt beschreibt) wie "Bezeichnung", "Zeichnungsnummer" oder "Unternehmen" häufig fehlen. Dies macht OCR-Ergebnisse unbrauchbar, da der Computer nicht versteht, ob es sich bei dem Text um eine Bezeichnung, eine Zeichnungsnummer oder um Unternehmensangaben handelt. Werk24 nutzt KI und ML, um individuelle Texte zu verstehen und die fehlenden Beschriftungen mit den richtigen Textergebnissen zu verknüpfen, so dass Ihr RFQ- oder ERP-System diese Informationen direkt nutzen kann.

Technische Zeichnung Schriftfeld Vergleich zwischen Google Vision OCR und Werk24 JSON
 

Kontextabhängige Korrektur

OCR versagt oft bei der Unterscheidung von Zahlen oder gleich aussehenden Zeichen, wie "1", "7" und "I", "0" und "O" oder "6" und "8". Dies macht OCR in der Praxis zu keiner zuverlässigen Option bei der Verarbeitung von technischen Zeichnungen.

Die Technologie von Werk24 versteht die Bedeutung und den Kontext eines jeden Textelements. Außerdem werden Maßangaben und Maßlinien miteinander verglichen. Das bedeutet, dass sie weiß, dass eine Nenngröße "11" statt "17" sein sollte, auch wenn sie sehr zweideutig und ähnlich aussieht.

 

Verstehen von Sondersymbolen

Allgemeine OCR-Lösungen können spezielle Symbole, einschließlich aller GD&T-Symbole, nicht lesen. Und für einige mathematische Symbole wie "Ø", "±" liefert die generische OCR unzuverlässige Ergebnisse in Bezug auf unterschiedliche Schriftarten.

Mit seinem eigenen trainierten Machine Learning Modell versteht Werk24 alle Sonderzeichen in Maßen und Toleranzen.

 

Komplexe grafische Umrahmung

Allgemeine OCR kann Texte in Zeichnungen, die von unübersichtlichen und überschnittenen grafischen Elementen wie Linien, Symbolen, Anmerkungen usw. umgeben sind, nicht zuverlässig erkennen.

Die TechRead API von Werk24 liest Textelemente trotz der sie umgebenden Geräusche. So können kleine Textfragmente auch dann noch mit hoher Genauigkeit gelesen werden, wenn sich Rotationslinien kreuzen und Maßnahmen stören.

 

Mehrfachausrichtung

Viele gängige OCR-Lösungen setzen eine bestimmte Ausrichtung des Dokuments voraus. Beispielsweise zeigen Texte in einem Artikel immer in eine Richtung, während es in technischen Zeichnungen oft Textelemente in verschiedenen Ausrichtungen gibt. Dies führt dazu, dass viele Textelemente von OCR-Lösungen wie Amazon Textract übersehen werden.

Werk24 geht nicht von einer dominanten Ausrichtung aus, was bei der Datenextraktion von großem Vorteil ist. Stattdessen kann die Technologie Maßnahmen aus jedem Textelement einzeln auslesen, unabhängig davon, ob es horizontal, vertikal oder in einem Winkel geneigt ist


Die Komplettlösung von Werk24

Da der Markt nach einer ausgereiften und zuverlässigen technischen Lösung für die Extraktion von Daten aus technischen Zeichnungen gesucht hat, hat Werk24 diesen Bedarf mit seiner TechRead API erfüllt. Ab sofort bieten wir die Möglichkeit, wichtige Daten aus technischen Zeichnungen automatisch zu extrahieren, wie z.B. Maße, Toleranzen, GD&T und Schriftfelder, so dass Kunden nicht mehr durch unzureichende OCR-Lösungen aufgehalten werden. Ab sofort sind alle wichtigen Produktionsdaten in technischen Zeichnungen innerhalb weniger Sekunden im JSON-Format zugänglich.

Vorherige
Vorherige

Werk24 wird von "Paul Kühn" als Digitalisierungslösung erwähnt

Weiter
Weiter

Lesen Sie Schriffeld von technischen Zeichnungen auf intelligente Weise