Visão artificial: Tudo o que você precisa saber

visão artificial

O que é visão por computador?

A Visão artificial é um subcampo de Aprendizagem Profunda e Inteligência Artificial onde os humanos ensinam os computadores a ver e interpretar o mundo ao seu redor.

Enquanto humanos e animais naturalmente resolvem a visão como um problema desde muito jovens, ajudar as máquinas a interpretar e perceber seu entorno através da visão continua sendo um problema em grande parte não resolvido.

A percepção limitada da visão humana juntamente com o cenário infinitamente variável de nosso mundo dinâmico é o que torna a visão mecânica complexa em sua essência.

Visão computadorizada vs. visão humana

A noção de que a visão mecânica deve ser derivada da visão animal era predominante já em 1959 – quando os neurofisiologistas mencionados acima tentaram entender a visão dos gatos.

Desde então, a história da visão artificial está repleta de marcos formados pelo rápido desenvolvimento de instrumentos de captura e escaneamento de imagem complementados por algoritmos de processamento de imagem de última geração

Os anos 60 viram o surgimento da IA como um campo acadêmico de estudo, seguido pelo desenvolvimento do primeiro robusto sistema de reconhecimento óptico de caracteres em 1974.

Nos anos 2000, o foco da Computer Vision foi deslocado para tópicos muito mais complexos, inclusive:

  • Identificação de objetos
  • Reconhecimento facial
  • Segmentação de imagem
  • Classificação da imagem
  • E mais…

Todos eles alcançaram uma precisão louvável ao longo dos anos

O ano de 2010 viu nascer o conjunto de dados da ImageNet com milhões de imagens rotuladas livremente disponíveis para pesquisa. Isto levou à formação da arquitetura AlexNet dois anos depois – tornando-a um dos maiores avanços na Computer Vision, citada mais de 82K vezes.

Processamento de imagens como parte da Visão da Computação

Processamento Digital de Imagem, ou Processamento de Imagem, em resumo, é um subconjunto da Computer Vision. Ele trata de melhorar e entender imagens através de vários algoritmos.

Mais do que apenas um subconjunto, o Processamento de Imagem forma o precursor da visão computadorizada moderna, supervisionando o desenvolvimento de inúmeros algoritmos baseados em regras e otimização que levaram a visão mecânica ao que ela é hoje.

O Processamento de Imagem pode ser definido como a tarefa de executar um conjunto de operações sobre uma imagem com base em dados coletados por algoritmos para analisar e manipular o conteúdo de uma imagem ou os dados da imagem.

Agora que você conhece a teoria por trás da visão por computador, vamos falar sobre seu lado prático.

Como funciona a visão computacional?

Uma imagem consiste de vários pixels, sendo um pixel o menor quanta em que a imagem pode ser dividida.

Os computadores processam as imagens na forma de um conjunto de pixels, onde cada pixel tem um conjunto de valores, representando a presença e intensidade das três cores primárias: vermelho, verde e azul.

Todos os pixels se juntam para formar uma imagem digital.

A imagem digital, portanto, torna-se uma matriz, e a Computer Vision torna-se um estudo de matrizes. Enquanto os algoritmos mais simples de visão artificial utilizam álgebra linear para manipular essas matrizes, aplicações complexas envolvem operações como convoluções com núcleos de aprendizagem e downsampling via pooling.