Skip to main content

La Evolución de la Visión de Máquina

Jon Gabay para Mouser Electronics

Desde los primeros satélites meteorológicos, las máquinas han sido dotadas de "visión", algo que sentó las bases para la evolución de las aplicaciones de visión de máquina. En las etapas iniciales, estas aplicaciones dependían en gran medida de la intervención humana para el análisis y la extracción de información crucial. Sin embargo, con los avances continuos, las técnicas modernas de procesamiento de imágenes han superado las capacidades humanas, y han revelado elementos más allá de nuestra percepción. El proceso de digitalización de datos de imagen ha desempeñado un papel significativo en la consecución de estas capacidades. La integración de la inteligencia artificial (IA) en estos sistemas digitalizados ha abierto un nuevo ámbito de posibilidades, y ha transformado las máquinas en herramientas más sofisticadas. En el umbral de esta revolución, más dispositivos están incorporando la visión en sus funcionalidades centrales.


Introducción al Digital Darkroom


Los servicios de noticias y las emisiones televisivas aceleraron la adopción generalizada de imágenes digitales. La primera imagen digital, atribuida a Russell Kirsch en 1957, marcó un momento crucial en la historia del procesamiento de imágenes. Un gran avance se dio a finales de la década de 1970 cuando las agencias de noticias comenzaron a utilizar un enfoque basado en software que aprovechaba el poder de los primeros microprocesadores para crear el primer cuarto oscuro digital. En 1987, el programa temprano de Macintosh "Digital Darkroom" ("Cuarto oscuro digital") hizo historia como la primera herramienta disponible para el público que podía editar y manipular imágenes. La llegada de los escáneres de alta resolución posteriormente llevó el poder de la digitalización de imágenes a los usuarios cotidianos. Las imágenes digitalizadas permitieron una variedad de manipulaciones, como recorte, ajuste de contraste y brillo, y cambio de tamaño, así como mejoras básicas como la convolución de bordes. A medida que la tecnología avanzaba, estas capacidades evolucionaban y se extendían, lo que requería hardware superior y soluciones de software más refinadas.


Integración de la Visión de Máquina en la Sociedad


En nuestra era moderna, los sensores de imagen y la visión de máquina se han vuelto parte integral de nuestras vidas. Estas tecnologías están presentes en todas partes, desde dispositivos personales como teléfonos, tabletas y computadoras portátiles hasta sistemas de imágenes industriales en fábricas, vehículos y carreteras. La relación costo-rendimiento de estos sistemas ha mejorado drásticamente a lo largo de los años, y la ubicuidad de las cámaras digitales se extiende a nuestros hogares y edificios públicos, donde ofrecen seguridad. Los avances en la tecnología de sensores de imagen han aliviado significativamente la carga sobre los ingenieros, quienes ahora tienen acceso a una variedad de cámaras modulares con capacidades incorporadas de procesamiento y comunicación.

La visión de máquina ha beneficiado enormemente a la sociedad. En las fábricas, se utiliza para inspeccionar productos, controlar manipuladores robóticos, detectar defectos y garantizar la seguridad. Por ejemplo, las modernas cámaras de enfoque automático de alta velocidad de cuadro pueden inspeccionar miles de uniones soldadas en una placa de circuito en cuestión de segundos, una tarea que llevaría varios minutos a los humanos (Figura 1).

 
Figura 1: La inspección de placas de circuito sin ensamblar y ensambladas puede detectar defectos de fabricación mucho más rápido y con mayor precisión que cualquier humano. (Fuente: xiaoliangge/stock.adobe.com)

También vemos la visión de máquina en las cámaras de vehículos y los sensores de imagen que proporcionan vistas de respaldo, detección de presencia y prevención de colisiones. En el campo médico, los sensores de imagen de alta resolución se utilizan para todo, desde diagnosticar fracturas hasta identificar células individuales en una muestra de tejido. La integración de visión de máquina y de inteligencia artificial ha superado a médicos experimentados en estas áreas, y a menudo ha revelado nuevos indicadores que antes eran desconocidos. En las ciudades, las cámaras de calles y edificios utilizan reconocimiento facial en tiempo real para seguridad o publicidad dirigida. Tanto las fuerzas del orden como el ejército también han adoptado la tecnología de visión de máquina para su uso en drones, misiles, aviones y satélites.


Capacidades Modernas de la Visión de Máquina


Si bien ha habido un aumento exponencial en la resolución y la velocidad de cuadro, el avance más notable en la visión de máquina es la visión estereoscópica, que permite a las máquinas percibir en tres dimensiones. Este desarrollo ha tenido profundas implicaciones en los sectores industrial y manufacturero, y ayudó en la rápida identificación y clasificación de objetos, y en la detección mejorada de defectos.

La percepción en 3D ha revolucionado los procesos de fabricación y las operaciones de vehículos autónomos. Combinados con procesadores robustos y grandes conjuntos de memoria, los sistemas de visión de máquina en 3D pueden identificar rápidamente un objeto, seguir su movimiento, percibir su velocidad y dirección, y predecir su ubicación futura.


Desafíos de Diseño en Evolución para Sistemas de Visión por Computadora de Próxima Generación


A medida que aumentan las capacidades de las cámaras, también aumenta la necesidad de dispositivos electrónicos más rápidos y avanzados. Por ejemplo, una antigua cámara de impresión en escala de grises de 256px × 256px necesita 65,536 bytes para capturar una sola imagen. A una velocidad moderada de 30 fotogramas por segundo necesarios para superar la tasa de fusión de parpadeo del ojo, esto requiere 1,966,080 bytes para un segundo de video. En contraste, una cámara de alta gama, alta resolución y alta velocidad de fotogramas puede procesar 4,000 fotogramas por segundo (FPS) a una resolución de 1080px × 800px y 24 bits. Esto se traduce en 2,592,000 bytes por imagen, con un asombroso total de 10,368,000,000 bytes para un segundo de video.

Para satisfacer estas demandas de memoria, las velocidades de procesamiento y comunicación del hardware de soporte han aumentado considerablemente. También ha aumentado la necesidad de grandes conjuntos de memoria de muy alta velocidad (típicamente DDR4), donde se utilizan ambos flancos de reloj y se realiza una escritura junto con cada lectura. Afortunadamente, los procesadores multinúcleo y el hardware FPGA dedicado pueden utilizarse para canalizar flujos de datos y realizar mejoras de imagen rudimentarias como la separación de planos de bits en tiempo real. La separación de planos de bits puede detectar bordes simplemente examinando los bits más significativos en su propia imagen monocromática.

Quizás el desarrollo más significativo con la visión de máquina ha sido el desarrollo de la unidad de procesamiento gráfico (GPU) junto con procesadores de inteligencia artificial (IA) y redes neuronales. Las GPU utilizan técnicas internas de procesamiento paralelo y hardware de manipulación de imágenes dedicado para simplificar significativamente el trabajo del ingeniero de diseño. Y dado que el aprendizaje automático requiere grandes conjuntos de datos, la combinación de GPUs con IA está llevando estas capacidades al siguiente nivel.

Los ingenieros de diseño para aplicaciones modernas impulsadas por máquinas también deben considerar sistemas de comunicación lo suficientemente rápidos para transportar datos de imágenes de un punto a otro. Por ejemplo, los automóviles modernos utilizan redes Ethernet de 100 Mbps para transportar imágenes de velocidad media y resolución media a pantallas y supercomputadoras de los vehículos. Además, estas computadoras necesitan una gran cantidad de almacenamiento flash no volátil para sus registradores de eventos (comúnmente conocidos como grabaciones de caja negra), que registran continuamente datos para la reconstrucción de accidentes e investigaciones criminales.

La visión de máquina moderna a menudo también requiere de visión nocturna. Por ejemplo, en aplicaciones automotrices, una cámara delantera con visión nocturna puede alertar al conductor sobre posibles peligros antes de que este los pueda ver.


Los módulos facilitan las cosas


La imponente curva de aprendizaje del diseño de visión de IA puede retrasar el tiempo de llegada al mercado de una buena idea. Afortunadamente, módulos como la cámara industrial de IA Advantech ICAM-520 (Figura 2) aplanan esa curva. Basada en un sensor de imagen Sony de 1.6MP de grado industrial, la ICAM-520 cuenta con un sistema de enfoque variable programable y múltiples procesadores Arm® para aplicaciones de visión de IA de nube a borde.

 
Figura 2: Cámara industrial de IA ICAM-520 Advantech. (Fuente: Mouser Electronics)

La ICAM-520 incorpora un módulo de sistema en un chip (SoM) NVIDIA® Jetson Xavier™ NX con una CPU Camel Armv8.2 de 64 bits. El Jetson Xavier NX de 70 mm × 40 mm, aclamado como la supercomputadora más pequeña del mundo, es un motor de IA multimodal completo diseñado específicamente para diseños de máquinas autónomas. Las capacidades de aprendizaje automático están integradas en la ICAM-520, que viene con una utilidad basada en la web HTML5 para la integración en servicios en la nube que admiten interfaces V4L2 y RTSP.

La ICAM-520 de 60FPS incluye un puerto USB Tipo-C para transferencias de datos de alta velocidad y un puerto Ethernet de autonegociación 10/100/1000. Un puerto HDMI 2.0 integrado permite una conexión fácil y directa a un monitor o pantalla local. También está disponible un puerto RS-485 para control, comando o estado de periféricos. Las entradas y salidas digitales integradas permiten personalizar una interfaz de usuario.

El módulo proporciona una memoria caché interna de nivel 2 de 8GB y de nivel 3 de 4MB, además de 16GB de almacenamiento eMMC.

Conclusiones


El concepto de visión de máquina ha evolucionado mucho más allá de una simple cámara y pantalla. Hoy en día, la visión de máquina describe un sistema completo de procesamiento de imágenes con diversas capacidades adaptadas a requisitos específicos. El procesamiento y la memoria de alto rendimiento son componentes esenciales para cualquier aplicación avanzada.

Afortunadamente, no todos los diseños de visión de máquina son excesivamente complejos. Con la ayuda de módulos de imagen y motores de procesamiento, la tecnología de visión de máquina se está volviendo más accesible para un grupo más amplio de diseñadores. Las tecnologías de memoria avanzadas y más rápidas están cumpliendo el desafío de manipular, almacenar y transmitir datos capturados.

Prácticas de diseño como buses más amplios, flujos de datos segmentados, procesamiento paralelo e IA están brindando una ayuda invaluable a los ingenieros. Al utilizar módulos de cámara con IA integrada, los diseñadores pueden concentrarse en la aplicación, no en la fuente de video. Conjuntos de cámaras modulares de alta calidad como la Advantech ICAM-520 facilitan la tarea de diseño personalizado y aceleran el lanzamiento al mercado de productos con capacidades avanzadas.