banner

blog

Apr 23, 2023

Endireitando a IA: como os pesquisadores do MIT preenchem a lacuna entre a visão humana e a de máquina

Por Adam Zewe, Instituto de Tecnologia de Massachusetts, 9 de maio de 2023

Pesquisadores do MIT descobriram que o treinamento de modelos de visão computacional usando treinamento adversário pode melhorar sua retidão perceptiva, tornando-os mais semelhantes ao processamento visual humano. A retidão perceptiva permite que os modelos prevejam melhor os movimentos dos objetos, melhorando potencialmente a segurança dos veículos autônomos. Modelos treinados adversamente são mais robustos, mantendo uma representação estável de objetos, apesar de pequenas alterações nas imagens. Os pesquisadores pretendem usar suas descobertas para criar novos esquemas de treinamento e investigar melhor por que o treinamento adversário ajuda os modelos a imitar a percepção humana.

Os pesquisadores identificam uma propriedade que ajuda os modelos de visão computacional a aprender a representar o mundo visual de maneira mais estável e previsível.

MITMIT is an acronym for the Massachusetts Institute of Technology. It is a prestigious private research university in Cambridge, Massachusetts that was founded in 1861. It is organized into five Schools: architecture and planning; engineering; humanities, arts, and social sciences; management; and science. MIT's impact includes many scientific breakthroughs and technological advances. Their stated goal is to make a better world through education, research, and innovation." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]">Pesquisadores do MIT descobriram que o treinamento adversário melhora a retidão perceptiva em modelos de visão computacional, tornando-os mais semelhantes ao processamento visual humano e permitindo uma melhor previsão dos movimentos dos objetos.

Imagine-se sentado em um banco de parque, observando alguém passar. Embora a cena possa mudar constantemente conforme a pessoa caminha, o cérebro humano pode transformar essa informação visual dinâmica em uma representação mais estável ao longo do tempo. Essa capacidade, conhecida como endireitamento perceptivo, nos ajuda a prever a trajetória da pessoa que caminha.

Ao contrário dos humanos, os modelos de visão computacional normalmente não exibem retidão perceptiva, então eles aprendem a representar informações visuais de uma maneira altamente imprevisível. Mas se os modelos de aprendizado de máquina tivessem essa capacidade, isso poderia permitir que eles estimassem melhor como objetos ou pessoas se moveriam.

Pesquisadores do MIT descobriram que um método de treinamento específico pode ajudar os modelos de visão computacional a aprender representações mais perceptualmente retas, como os humanos. O treinamento envolve mostrar a um modelo de aprendizado de máquina milhões de exemplos para que ele possa aprender uma tarefa.

Os pesquisadores descobriram que treinar modelos de visão computacional usando uma técnica chamada treinamento contraditório, que os torna menos reativos a pequenos erros adicionados às imagens, melhora a retidão perceptiva dos modelos.

Os pesquisadores do MIT descobriram que uma técnica de treinamento específica pode permitir que certos tipos de modelos de visão computacional aprendam representações visuais mais estáveis ​​e previsíveis, que são mais semelhantes àquelas que os humanos aprendem usando uma propriedade biológica conhecida como endireitamento perceptivo. Crédito: MIT News com iStock

A equipe também descobriu que a retidão perceptiva é afetada pela tarefa que se treina um modelo para executar. Modelos treinados para executar tarefas abstratas, como classificar imagens, aprendem representações mais perceptualmente diretas do que aqueles treinados para executar tarefas mais refinadas, como atribuir cada pixel em uma imagem a uma categoria.

Por exemplo, os nós dentro do modelo têm ativações internas que representam "cachorro", que permitem que o modelo detecte um cachorro quando vê qualquer imagem de um cachorro. As representações perceptivamente retas retêm uma representação de "cachorro" mais estável quando há pequenas alterações na imagem. Isso os torna mais robustos.

Ao obter uma melhor compreensão da retidão perceptiva na visão computacional, os pesquisadores esperam descobrir informações que possam ajudá-los a desenvolver modelos que façam previsões mais precisas. Por exemplo, essa propriedade pode melhorar a segurança de veículos autônomos que usam modelos de visão computacional para prever as trajetórias de pedestres, ciclistas e outros veículos.

After reading a 2019 paper from a team of New York UniversityFounded in 1831, New York University (NYU) is a private research university based in New York City." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]"New York University researchers about perceptual straightness in humans, DuTell, Harrington, and their colleagues wondered if that property might be useful in computer vision models, too./p>

COMPARTILHAR