Skip to main content

A Evolução da Visão de Máquina

Jon Gabay para Mouser Electronics

Desde os primeiros satélites meteorológicos, as máquinas foram dotadas de “visão”, preparando o terreno para a evolução das aplicações de visão máquina. Nas fases iniciais, estas aplicações dependiam solidamente da intervenção humana para a análise e extração de informações cruciais. No entanto, com os avanços contínuos, as técnicas modernas de processamento de imagens ultrapassaram as capacidades humanas, descobrindo elementos além da nossa percepção. O processo de digitalização de dados de imagem desempenhou um papel significativo na obtenção desses recursos. A integração da inteligência artificial (IA) nestes sistemas digitalizados abriu um novo mundo de possibilidades, transformando as máquinas em ferramentas mais sofisticadas. À medida que nos aproximamos desta revolução, cada vez mais dispositivos incorporam a visão nas suas funcionalidades principais.


Lançamento do Digital Darkroom


Os serviços de notícias e as transmissões televisivas aceleraram a adoção generalizada de imagens digitais. A primeira imagem digital, atribuída a Russell Kirsch em 1957, marcou um momento marcante na história do processamento de imagens. Um grande avanço foi feito no final da década de 1970, quando as agências de notícias começaram a usar uma abordagem baseada em software que alavancou o poder dos primeiros microprocessadores para criar a primeira digital darkroom. Em 1987, o primeiro programa do Macintosh "Digital Darkroom" fez história como a primeira ferramenta disponível ao público que podia editar e manipular imagens. O advento dos scanners de alta resolução trouxe posteriormente o poder da digitalização de imagens para os usuários comuns. As imagens digitalizadas permitiram uma variedade de manipulações, como corte, ajuste de contraste e brilho e redimensionamento, bem como aprimoramentos básicos como convolução de bordas. Com o avanço da tecnologia, esses recursos evoluíram e foram ampliados, exigindo hardware superior e soluções de software mais refinadas.


Integração da visão de máquina na sociedade


Em nossa era moderna, os sensores de imagem e a visão de máquina passaram a ser parte integrante das nossas vidas. Essas tecnologias estão presentes em todos os lugares, desde dispositivos pessoais como telefones, tablets e laptops até sistemas de imagem industrial em fábricas, veículos e rodovias. A relação custo/desempenho destes sistemas melhorou drasticamente ao longo dos anos, e a omnipresença das câmaras digitais estende-se às nossas residências e edifícios públicos, onde oferecem segurança. Os avanços na tecnologia de sensoriamento de imagem reduziram significativamente a carga dos engenheiros, que agora têm acesso a uma gama de câmeras modulares com recursos integrados de processamento e comunicação.

A visão de máquina beneficiou imensamente a sociedade. Nas fábricas, é utilizada para inspecionar produtos, controlar manipuladores robóticos, detectar falhas e garantir segurança. Por exemplo, câmeras modernas com foco automático e alta taxa de quadros podem inspecionar milhares de juntas de solda em uma placa de circuito em segundos, uma tarefa que levaria vários minutos se executada por seres humanos (Figura 1).

 
Figura 1:  A inspeção de placas de PC não preenchidas e preenchidas pode detectar falhas de fabricação com muito mais rapidez e precisão do que qualquer ser humano. (Fonte: xiaoliangge/stock.adobe.com)

Também encontramos visão de máquina em câmeras de veículos e sensores de imagem que oferecem visões traseiras, detecção de presença e prevenção de colisões. Na área médica, sensores de imagem de alta resolução são usados para tudo, desde o diagnóstico de fraturas até a identificação de células individuais em uma amostra de tecido. A integração da visão de máquina e da IA superou os médicos experientes nessas áreas, muitas vezes descobrindo novos indicadores que antes eram desconhecidos. Nas cidades, as câmeras de rua e de edifícios utilizam reconhecimento facial em tempo real para segurança ou publicidade direcionada. As autoridades policiais e as forças armadas também adotaram tecnologia de visão de máquina para uso em drones, mísseis, aeronaves e satélites.


Recursos Modernos da Visão de Máquina


Embora tenha havido um aumento exponencial na resolução e na taxa de quadros, o avanço mais notável na visão de máquina é a visão estereoscópica, que habilita as máquinas à percepção em três dimensões. Este desenvolvimento teve implicações profundas nos setores industrial e de produção, auxiliando na rápida identificação e a classificação de objetos e na detecção aprimorada de falhas.

A percepção 3D revolucionou os processos de fabricação e as operações de veículos autônomos. Acoplados a processadores robustos e conjuntos de memória profundos, os sistemas de visão de máquina 3D podem identificar rapidamente um objeto, rastrear seu movimento, determinar sua velocidade e direção e prever sua localização futura.


Evolução dos desafios de projeto para sistemas de visão de máquina de próxima geração


À medida que aumentam os recursos das câmeras, aumenta também a necessidade de componentes eletrônicos mais rápidos e avançados. Por exemplo, uma câmera antiga em tonalidades de cinza de 256px × 256px precisa de 65.536 bytes para capturar uma única imagem. A moderados 30 quadros por segundo necessários para exceder a taxa de fusão de cintilação do olho, são necessários 1.966.080 bytes para um segundo de vídeo. Por outro lado, uma câmera de última geração, alta resolução e taxa de quadros rápida pode processar 4.000 quadros por segundo (FPS) com resolução de 1080px × 800px de 24 bits. Isso significa 2.592.000 bytes por imagem, com surpreendentes 10.368.000.000 bytes por segundo de vídeo.

Para atender a essas demandas de memória, as velocidades de processamento e comunicações do hardware de suporte dispararam. O mesmo acontece com a necessidade de enormes pools de memória de altíssima velocidade (normalmente DDR4), em que ambas as bordas do clock são usadas e uma gravação acompanha cada leitura. Felizmente, processadores multi-core e hardware FPGA dedicado podem ser usados para canalizar fluxos de dados e realizar melhorias rudimentares de imagem, como separação de plano de bits em tempo real. A separação do plano de bits pode detectar bordas simplesmente examinando os bits mais significativos em sua própria imagem monocromática.

Talvez o desenvolvimento mais significativo da visão de máquina tenha sido o desenvolvimento da unidade de processamento gráfico (GPU) acoplado a processadores de IA e redes neurais. As GPUs utilizam técnicas internas de processamento paralelo e hardware dedicado de manipulação de imagens para simplificar significativamente o trabalho do engenheiro de projeto. E uma vez que o aprendizado de máquina adora grandes conjuntos de dados, o casamento das GPUs com a IA está levando esses recursos para o próximo nível.

Os engenheiros de projeto para aplicações modernas acionadas por máquinas também precisam considerar sistemas de comunicação rápidos o suficiente para transportar dados de imagem de ponto a ponto. Por exemplo, os carros modernos utilizam redes Ethernet de 100 Mbps para transportar imagens de velocidade média e resolução média para os monitores e os supercomputadores dos carros. Além disso, esses computadores precisam de uma grande quantidade de armazenamento flash não volátil para seus gravadores de dados de eventos (comumente conhecidos como gravadores de caixa preta), que registram continuamente dados para reconstrução de acidentes e investigações criminais.

A visão de máquina moderna também exige visão noturna com frequência. Por exemplo, em aplicações automotivas, uma câmera de visão dianteira com visão noturna pode alertar o motorista sobre possíveis perigos antes que ele possa vê-los.


Módulos Facilitam


A desafiadora curva de aprendizado do projeto de visão de IA pode retardar o tempo de lançamento de uma boa ideia no mercado. Felizmente, módulos como a câmera industrial de IA Advantech ICAM-520 (Figura 2) achatam essa curva. Com base em um sensor de imagem Sony de 1.6 MP de classe industrial, a ICAM-520 inclui um sistema de lentes de foco variável programável e vários processadores Arm® para aplicações de IA de visão da nuvem até a borda.

 
Figura 2: Câmeras industriais IA Advantech ICAM-520. (Fonte: Mouser Electronics)

A câmera ICAM-520 incorpora um sistema em módulo (SoM) NVIDIA® Jetson Xavier™ NX com uma CPU Camel Armv8.2 de 64 bits. O sistema Jetson Xavier NX de 70 mm × 40 mm, considerado o menor supercomputador do mundo, é um mecanismo de IA multimodal completo projetado especificamente para projetos de máquinas autônomas. Os recursos de aprendizado de máquina estão integrados na ICAM-520, que é fornecida com um utilitário HTML5 baseado na web para integração em serviços em nuvem com suporte a interfaces V4L2 e RTSP.

A ICAM-520 de 60 FPS inclui uma porta USB Tipo-C para transferências de dados em alta velocidade e uma porta Ethernet 10/100/1000 de negociação automática. Uma porta HDMI 2.0 integrada permite conexão fácil e direta a um monitor ou monitor local. Uma porta RS-485 também está disponível para controle periférico, comando ou status. A entrada/saída digital integrada permite personalizar uma interface de usuário.

O módulo oferece memória cache interna embutida de 8 GB de nível 2 e 4 MB de nível 3, além de 16 GB de armazenamento eMMC.

Conclusões


O conceito de visão de máquina evoluiu muito além de uma simples câmera e monitor. Hoje, a visão de máquina descreve um sistema abrangente de processamento de imagem com diversos recursos adaptados a requisitos específicos. Processamento e memória de alto desempenho são componentes essenciais para qualquer aplicação avançada.

Felizmente, nem todos os projetos de visão de máquina são excessivamente complexos. Com a ajuda de módulos de imagem e mecanismos de processamento, a tecnologia de visão de máquina está se tornando mais acessível a um grupo mais amplo de projetistas. Tecnologias de memória avançadas e mais rápidas estão enfrentando o desafio de manipular, armazenar e transmitir dados capturados.

Práticas de projeto como barramentos maiores, fluxos de dados em pipeline, processamento paralelo e IA estão oferecendo assistência inestimável aos engenheiros. Ao usar módulos de câmera com IA incorporada, os projetistas podem se concentrar na aplicação, não na fonte de vídeo. Os conjuntos de câmeras modulares de alta qualidade, como a Advantech ICAM-520, facilitam a tarefa de projeto personalizado e agilizam o lançamento no mercado de produtos com recursos avançados.