Die Entwicklung von Machine Vision
Jon Gabay für Mouser Electronics
Seit den ersten Wettersatelliten sind Maschinen dazu in er Lage, zu „sehen“, was schließlich zur Entwicklung von Machine-Vision-Applikationen führte. Zunächst hing bei der Analyse bzw. Extraktion wesentlicher Informationen durch diese Applikationen alles von der menschlichen Unterstützung ab. Kontinuierliche Fortschritte führten jedoch schließlich dazu, dass heutige Bildverarbeitungstechniken die menschlichen Fähigkeiten bereits übertreffen und Einzelheiten erkennen, die unserer Wahrnehmung entgehen. Das Verfahren der Digitalisierung von Bilddaten spielte bei der Erlangung dieser Fähigkeiten eine entscheidende Rolle. Die Integration von künstlicher Intelligenz (KI) in diese digitalisierten Systeme hat unzählige neue Möglichkeiten geschaffen und Maschinen zu noch anspruchsvolleren Werkzeugen gemacht. Gegenwärtig stehen wir vor einer weiteren Revolution, die noch mehr Geräten die Fähigkeit zu sehen verleihen wird.
Die Einführung der digitalen Dunkelkammer
Nachrichtendienste und Fernsehübertragungen beschleunigten den umfangreichen Einsatz digitaler Bilder. Das erste digitale Bild von Russell Kirsch 1957 stellt einen wesentlichen Wendepunkt in der Geschichte der Datenverarbeitung dar. Ein weiterer Meilenstein wurde Ende der 1970er erreicht, als sich Nachrichtenagenturen unter Verwendung eines Software-basierten Ansatzes der Leistungsfähigkeit der ersten Mikroprozessoren bedienten, um die erste digitale Dunkelkammer zu erschaffen. 1987 schrieb das frühe Macintosh-Programm „Digital Darkroom“ Geschichte als das erste, der Allgemeinheit zur Verfügung stehende Werkzeug, mit dem sich Bilder bearbeiten und verändern ließen. In weiterer Folge führte das Aufkommen hochauflösender Scanner Alltagsnutzern die Macht der Bilddigitalisierung vor Augen. Digitalisierte Bilder erlaubten unzählige Kunstkniffe, darunter Zuschnitte, das Anpassen von Kontrast, Helligkeit und Größe sowie grundlegende Veränderungen wie das Anpassen der Ränder. Dank technologischer Fortschritte entwickelten sich diese Fähigkeiten weiter und führten schließlich zur Forderung nach anspruchsvollerer Hardware und raffinierteren Software-Lösungen.
Die gesellschaftliche Integration von Machine Vision
Heutzutage sind Bildsensoren und maschinelles Sehen integrale Bestandteile unseres Alltags. Diese Technologien sind allgegenwärtig, von persönlichen Geräten wie Telefonen und Laptops zu industriellen bildgebenden Systemen unserer Fertigungsanlagen, Fahrzeuge und Autobahnen. Das Kosten-Nutzen-Verhältnis dieser Systeme hat sich im Laufe der Zeit dramatisch verändert und die Allgegenwärtigkeit digitaler Kameras erstreckt sich mittlerweile auf unser Zuhause und öffentliche Gebäude, deren Sicherheit sie gewährleisten. Mittlerweile erleichtern technologische Fortschritte bei der Bilderfassung Ingenieuren ihre Aufgabe, da diese nun auf eine Reihe modularer Kameras mit eingebauten Verarbeitungs- und Kommunikationsfähigkeiten zurückgreifen können.
Unsere Gesellschaft profitierte umfassend vom Verfahren des maschinellen Sehens, das in Fertigungsanlagen Produkte überprüft, Roboterarme steuert, Mängel aufzeigt und die Sicherheit garantiert. Beispielsweise sind moderne auto-fokussierende Kameras mit hohen Bildfrequenzen dazu in der Lage, in wenigen Sekunden tausende Lötverbindungen einer Leiterplatte zu überprüfen, wofür Menschen mehrere Minuten benötigen würden (Abbildung 1).
Abbildung 1: Das Überprüfen leerer und voller PC-Boards bringt Fertigungsmängel sehr viel schneller und umfassender ans Licht als jeder Mensch. (Quelle: xiaoliangge/stock.adobe.com)
Zudem kommt maschinelles Sehen in Fahrzeugkameras und Bildsensoren zum Einsatz, die Rückansichten, Anwesenheitserkennung und Kollisionsvermeidung bieten. In der Medizin werden hochauflösende Bildsensoren für unzählige Aufgaben verwendet, von der Diagnose von Knochenbrüchen bis hin zur Bestimmung individueller Zellen in Gewebeproben. Die Integration von Machine-Vision und KI stellt die Leistung erfahrener Ärzte in diesen Bereichen bereits heute in den Schatten und führt häufig zur Entdeckung neuer und bisher unbekannter Indikatoren. In Städten nutzen Straßen- und Gebäudekameras das Verfahren der Gesichtserkennung in Echtzeit für Sicherheits- oder gezielte Werbemaßnahmen. Sowohl die Polizei als auch das Militär setzen Machine-Vision-Technologie in ihren Drohnen, Projektilen, Flugzeugen und Satelliten ein.
Moderne Machine-Vision-Fähigkeiten
Während die Auflösung und Bildfrequenz exponentiell wuchsen, bildet das stereoskopische Sehen zweifelsfrei die wesentlichste Weiterentwicklung von Machine Vision, die es Maschinen erlaubt, dreidimensional zu sehen. Diese Entwicklung hat tiefgreifende Auswirkungen auf die Industrie und den Fertigungssektor, erlaubt sie doch die rasche Identifikation und Kategorisierung von Gegenständen und bessere Fehlererkennung.
Die 3D-Wahrnehmung hat Fertigungsverfahren und den Einsatz selbstfahrender Fahrzeuge revolutioniert. In Verbindung mit stabilen Prozessoren und tiefen Speicherpools sind 3D-Machine-Vision-Systeme dazu in der Lage, Gegenstände rasch zu identifizieren, ihre Bewegungen zu erfassen, ihre Geschwindigkeit und Richtung zu bestimmen und ihre zukünftige Position vorauszusagen.
Neue Herausforderungen für die Entwicklung von Machine-Vision-Systemen der nächsten Generation
Entsprechend der Erweiterung der Kamerafähigkeiten nimmt auch der Bedarf an schnellerer und fortschrittlicherer Elektronik zu. Beispielsweise benötigte eine alte 256px × 256px Graustufenkamera 65.536 Bytes, um ein Einzelbild einzufangen. Bei mittleren 30 Bildern pro Sekunde, die nötig sind, um die Flimmerverschmelzungsrate des Auges zu übertreffen, bedarf es 1.966.080 Bytes für eine einzelne Videosekunde. Im Gegensatz dazu sind hochauflösende Highend-Kameras mit schneller Bildrate dazu in der Lage, 4000 Bilder pro Sekunde (FPS) mit einer 1080px × 800px 24-Bit-Auflösung zu verarbeiten, was sich in 2.592.000 Bytes pro Bild niederschlägt bzw. in erstaunlichen 10.368.000,000 Bytes für jede einzelne Videosekunde.
Um diesen Speicheransprüchen zu genügen, gingen die Verarbeitungs- und Kommunikationsgeschwindigkeiten der unterstützenden Hardware durch die Decke. Genau wie die Nachfrage nach umfangreichen Pools an Hochgeschwindigkeitsspeichern (typischerweise DDR4), die beide Taktflanken verwenden und bei denen jeder Lesevorgang von einem Schreibvorgang begleitet wird. Glücklicherweise lassen sich Multicore-Prozessoren und zugehörige FPGA-Hardware dafür verwenden, Datenströme zu leiten und rudimentäre Nachbearbeitungen von Bildmaterial wie der Trennung der Bit-Ebene in Echtzeit durchzuführen. Durch Trennung der Bit-Ebene wird es möglich, Ränder durch einfache Überprüfung der wesentlichsten Bits im eigenen monochromen Bild zu erkennen.
Die vielleicht wichtigste Entwicklung beim maschinellen Sehen bestand in der Verbesserung des Grafikprozessors (GPU) in Verbindung mit KI-Prozessoren und neuronalen Netzwerken. Indem GPUs interne parallele Verarbeitungstechniken und spezielle Hardware für die Bildbearbeitung nutzen, erleichtern sie die Aufgabe von Designingenieuren in bedeutendem Ausmaß. Und da maschinelle Lernanwendungen nicht ohne umfangreiche Datensets auskommen, sorgt die Verschmelzung von GPUs und KI für wesentliche Fortschritte bei diesen Fähigkeiten.
Designingenieure moderner maschinengesteuerter Applikationen müssen außerdem Kommunikationssysteme in Erwägung ziehen, die schnell genug arbeiten, um Bilddaten von einem Punkt zum nächsten zu transportieren. Beispielsweise verwenden moderne Autos 100 Mbps Ethernet-Netzwerke, um Bilder mittlerer Auflösung mit mittlerer Geschwindigkeit an Anzeigegeräte bzw. die Supercomputer der Fahrzeuge weiterzuleiten. Zusätzlich dazu benötigen diese Computer eine Vielzahl an nichtflüchtigen Flashspeichern für ihre (gewöhnlich Black-Box-Recorder genannten) Recorder für Ereignisdaten, die fortwährend Daten für Unfallrekonstruktionen und strafrechtliche Untersuchungen aufzeichnen.
Häufig kommen moderne Machine-Vision-Systeme außerdem nicht ohne Nachtsicht aus. Beispielsweise können Frontkameras mit Nachtsichtfunktion Autofahrer mittels Automobilapplikationen vor potenziellen Gefahren warnen, bevor diese für sie sichtbar werden.
Vereinfachung durch Module
Die beeindruckende Lernkurve von KI-Bildverarbeitungsdesigns kann die Markteinführung guter Ideen verzögern. Glücklicherweise führen Module wie die industrielle KI-Kamera ICAM-520 von Advantech (Abbildung 2) zu einer Verflachung dieser Kurve. Ausgehend von einem 1,6-MP-Industriestandard-Bildsensor von Sony verfügt die ICAM-520 über eine programmierbare Optik mit variablem Fokus und mehreren Arm®-Prozessoren für Cloud-to-Edge-Vision-KI-Applikationen.
Abbildung 2: Die industrielle KI-Kamera ICAM-520 von Advantech. (Quelle: Mouser Electronics)
Die ICAM-520 verbindet ein NVIDIA® Jetson Xavier™ NX System-on-Modul (SoM) mit einer 64-Bit Camel Armv8.2 CPU. Der als kleinster Supercomputer der Welt beworbene Jetson Xavier NX mit Abmessungen von 70 mm × 40 mm ist eine speziell für autonome Maschinendesigns entwickelte, voll ausgestattete multimodale KI-Engine. Die ICAM-520 wurde unmittelbar mit Machine-Learning-Fähigkeiten ausgestattet, lässt sich mithilfe eines webbasierten HTML5-Dienstprogramms mit Cloud-Diensten integrieren und unterstützt V4L2- und RTSP-Schnittstellen.
Die 60FPS ICAM-520 umfasst einen USB-Type-C-Anschluss für High-Speed-Datenübertragungen und einen 10/100/1000 Auto-Negotiation Ethernet-Anschluss. Ein integrierter HDMI 2.0-Anschluss ermöglicht die einfache und schnelle Verbindung mit einem lokalen Monitor oder Display. Zudem ist ein RS-485-Anschluss für Peripheriesteuerung, Befehlseingabe oder Status verfügbar. Dank integrierter digitaler I/O lässt sich nicht zuletzt die Benutzerschnittstelle individuell anpassen.
Das Modul bietet einen eingebetteten Level 2-Cache-Speicher mit 8 GB bzw. einen internen Level 3-Cache-Speicher mit 4 MB sowie einen eMMC-Speicher mit 16 GB.
Schlussfolgerungen
Das Konzept des maschinellen Sehens hat sich längst umfassend über einfache Kameras bzw. Displays hinaus entwickelt. Heutzutage versteht man unter Machine Vision umfassende bildverarbeitende und individuell an spezifische Anforderungen angepasste Systeme mit unterschiedlichsten Fähigkeiten. Hochleistungsfähiges Verarbeiten und Speichern sind wesentliche Eigenschaften jeglicher fortschrittlichen Applikation.
Glücklicherweise sind nicht alle Machine-Vision-Designs übermäßig komplex. Nach und nach erschließen sich immer mehr Entwickler die durch Bildmodule und Verarbeitungsengines unterstützte Machine-Vision-Technologie. Fortschrittlichere und schnellere Speichertechnologien stellen sich den Herausforderungen rund um die Aufbereitung, Speicherung und Übertragung gesammelter Daten.
Designpraktiken wie breitere Busse, Datenströme über eine Leitung, paralleles Verarbeiten und KI bieten Ingenieuren unschätzbare Hilfestellung. Durch die Verwendung von Kameramodulen mit eingebetteter KI wird es Entwicklern möglich, sich auf die Applikation statt auf die Videoquelle zu konzentrieren. Hochqualitative modulare Kamera-Baugruppen wie die ICAM-520 von Advantech erleichtern individuelle Designs und beschleunigen die Markteinführung von Produkten mit fortschrittlicheren Fähigkeiten.