Pesquisadores identificam máquinas de trem de propriedade para aprender mais como os humanos

Imagine-se sentado em um banco de parque, observando alguém passar. Embora a cena possa mudar constantemente conforme a pessoa caminha, o cérebro humano pode transformar essa informação visual dinâmica em uma representação mais estável ao longo do tempo. Essa capacidade, conhecida como endireitamento perceptivo, nos ajuda a prever a trajetória da pessoa que caminha. Ao contrário dos humanos, os modelos de visão computacional normalmente não exibem retidão perceptiva, então eles aprendem a representar informações visuais de uma maneira altamente imprevisível. Mas se os modelos de aprendizado de máquina tivessem essa capacidade, isso poderia permitir que eles estimassem melhor como os objetos ou pessoas se moveriam. O treinamento envolve mostrar a um modelo de aprendizado de máquina milhões de exemplos para que ele possa aprender uma tarefa. retidão. A equipe também descobriu que a retidão perceptiva é afetada pela tarefa que se treina um modelo para realizar. Modelos treinados para executar tarefas abstratas, como classificar imagens, aprendem representações mais perceptualmente diretas do que aqueles treinados para executar tarefas mais refinadas, como atribuir cada pixel em uma imagem a uma categoria. Por exemplo, os nós dentro do modelo têm ativações internas que representam "cachorro", que permitem que o modelo detecte um cachorro quando vê qualquer imagem de um cachorro. As representações perceptivamente retas retêm uma representação de "cachorro" mais estável quando há pequenas alterações na imagem. Isso os torna mais robustos. Ao obter uma melhor compreensão da retidão perceptiva na visão computacional, os pesquisadores esperam descobrir informações que possam ajudá-los a desenvolver modelos que façam previsões mais precisas. Por exemplo, essa propriedade pode melhorar a segurança de veículos autônomos que usam modelos de visão computacional para prever as trajetórias de pedestres, ciclistas e outros veículos. visão, pode fornecer informações sobre por que certas coisas funcionam da maneira que funcionam e também inspirar ideias para melhorar as redes neurais", diz Vasha DuTell, pós-doutoranda do MIT e coautora de um artigo que explora a retidão perceptiva na visão computacional.Juntando-se à DuTell no artigo estão a autora principal Anne Harrington, uma estudante de pós-graduação do Departamento de Engenharia Elétrica e Ciência da Computação (EECS); Ayush Tewari, um pós-doutorado; Mark Hamilton, um estudante de pós-graduação; Simon Stent, gerente de pesquisa da Woven Planet; Ruth Rosenholtz, principal pesquisadora do Departamento de Ciências do Cérebro e Cognitivas e membro do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL); e o autor sênior William T. Freeman, professor de Engenharia Elétrica e Ciência da Computação Thomas e Gerd Perkins e membro do CSAIL. A pesquisa está sendo apresentada na Conferência Internacional sobre Representações de Aprendizagem. Estudando o endireitamento Depois de ler um artigo de 2019 de uma equipe de pesquisadores da Universidade de Nova York sobre a percepção da retidão em humanos, DuTell, Harrington e seus colegas se perguntaram se essa propriedade poderia ser útil na visão computacional modelos também. Eles se propuseram a determinar se diferentes tipos de modelos de visão computacional endireitam as representações visuais que aprendem. Eles alimentaram cada modelo com quadros de um vídeo e, em seguida, examinaram a representação em diferentes estágios de seu processo de aprendizagem. Se a representação do modelo muda de forma previsível ao longo dos quadros do vídeo, esse modelo está se endireitando. No final, sua representação de saída deve ser mais estável do que a representação de entrada."Você pode pensar na representação como uma linha, que começa bem curva. suas etapas de processamento", explica DuTell. A maioria dos modelos que eles testaram não endireitou. Dos poucos que o fizeram, aqueles que se endireitaram com mais eficácia foram treinados para tarefas de classificação usando a técnica conhecida como treinamento adversário. O treinamento adversário envolve a modificação sutil de imagens alterando ligeiramente cada pixel. Embora um ser humano não notaria a diferença, essas pequenas alterações podem enganar uma máquina para que ela classifique incorretamente a imagem. O treinamento adversário torna o modelo mais robusto, para que não seja enganado por essas manipulações. Como o treinamento adversário ensina o modelo a ser menos reativo a pequenas mudanças nas imagens, isso o ajuda a aprender uma representação que é mais previsível ao longo do tempo, explica Harrington "As pessoas já tiveram essa ideia de que o treinamento adversário pode ajudá-lo a tornar seu modelo mais parecido com um humano, e foi interessante ver que isso foi transferido para outra propriedade que as pessoas não haviam testado antes", diz ela. os pesquisadores descobriram que modelos treinados adversamente só aprendem a endireitar quando são treinados para tarefas amplas, como classificar imagens inteiras em categorias. Os modelos encarregados da segmentação – rotulando cada pixel em uma imagem como uma determinada classe – não endireitaram, mesmo quando foram treinados adversamente. Classificação consistente Os pesquisadores testaram esses modelos de classificação de imagem mostrando-lhes vídeos. Eles descobriram que os modelos que aprenderam mais representações perceptivamente retas tendiam a classificar corretamente os objetos nos vídeos de forma mais consistente." , ainda mostram uma certa quantidade de endireitamento", diz DuTell. Os pesquisadores não sabem exatamente o que sobre o processo de treinamento adversário permite que um modelo de visão computacional se endireite, mas seus resultados sugerem que esquemas de treinamento mais fortes fazem com que os modelos se endireitem mais, ela explica . Com base neste trabalho, os pesquisadores querem usar o que aprenderam para criar novos esquemas de treinamento que dariam explicitamente a um modelo essa propriedade. Eles também querem se aprofundar no treinamento adversário para entender por que esse processo ajuda a corrigir um modelo."Do ponto de vista biológico, o treinamento adversário não faz necessariamente sentido. Não é como os humanos entendem o mundo. Ainda há muitas perguntas sobre por que esse processo de treinamento parece ajudar os modelos a agirem mais como humanos", diz Harrington. Institute e Harvard Medical School, que não esteve envolvido com esta pesquisa. "Harrington et al. realizam uma extensa avaliação de como as representações dos modelos de visão computacional mudam ao longo do tempo ao processar vídeos naturais, mostrando que a curvatura dessas trajetórias varia amplamente dependendo da arquitetura do modelo, propriedades de treinamento e tarefa. Essas descobertas podem informar o desenvolvimento de modelos aprimorados e também oferece insights sobre o processamento visual biológico.""O artigo confirma que endireitar vídeos naturais é uma propriedade bastante única exibida pelo sistema visual humano. percepção humana: sua robustez a várias transformações de imagem, sejam elas naturais ou artificiais", diz Olivier Hénaff, pesquisador da DeepMind, que não participou desta pesquisa. "O fato de mesmo os modelos de segmentação de cena treinados adversamente não endireitarem suas entradas levanta questões importantes para trabalhos futuros: os humanos analisam cenas naturais da mesma forma que os modelos de visão computacional? detalhes espaciais? Ao conectar a hipótese de endireitamento com outros aspectos do comportamento visual, o artigo estabelece as bases para teorias de percepção mais unificadas. Science Foundation, o Laboratório de Pesquisa da Força Aérea dos EUA e o Acelerador de Inteligência Artificial da Força Aérea dos EUA.

Notícias

Pesquisadores identificam máquinas de trem de propriedade para aprender mais como os humanos