TCDA: temporally-consistent depth-aware unsupervised domain adaptation for semantic segmentation in urban scenes
Nome Completo:
Felipe Manfio Barbosa
Unidade da USP:
Instituto de Ciências Matemáticas e de Computação (ICMC)
Programa de Pós-Graduação:
Programa Pós-Graduação em Ciências de Computação e Matemática Computacional (PPG-CCMC)
Nível:
Mestrado
Resumo:
Como ensinar carros autônomos a entender melhor as ruas — mesmo sem dados rotulados Imagine carros autônomos circulando com segurança pelas ruas, reconhecendo calçadas, pedestres e outros veículos, mesmo em cidades onde nunca estiveram antes. Esse é o tipo de desafio que nossa pesquisa busca resolver. Hoje, para que um carro autônomo "entenda" o que vê, ele precisa de sistemas de percepção do ambiente muito bem treinados para identificar cada parte da cena — como ruas, calçadas, carros e pessoas. Isso é feito por técnicas como a Segmentação Semântica, que tenta identificar e classificar tudo aquilo que a câmera (os "olhos" do automóvel) está vendo. O problema é que esses sistemas exigem grandes quantidades de imagens rotuladas manualmente para funcionar bem, o que é caro, demorado e pouco viável em larga escala. Propomos, portanto, uma solução mais acessível: usar dados não rotulados e imagens sintéticas geradas por simuladores (como os de videogames) para treinar os sistemas de visão dos carros. Os dados simulados (sintéticos), porém, preservam diferenças visuais bem pronunciadas com relação aos dados reais (é fácil diferenciar visualmente dados sintéticos e dados reais). Por isso, um sistema de visão treinado para dados sintéticos geralmente não tem bom desempenho em cenários de aplicação (domínios) reais. Para superar as diferenças entre o mundo virtual e o real, aplicamos uma técnica chamada Adaptação de Domínio Não Supervisionada. Ela permite que os carros aprendam conjuntamente a partir de vídeos e informações de profundidade (a distância entre objetos e a câmera) simulados e reais para se adaptarem melhor às ruas reais. O resultado? Com a técnica proposta, conseguimos melhorar em até 250% a capacidade do carro de entender elementos cruciais da rua, como o asfalto, a calçada, veículos e pedestres — tudo isso sem precisar de dados rotulados manualmente no domínio alvo. Esse avanço pode ajudar diretamente a reduzir os custos e acelerar o desenvolvimento de veículos autônomos mais seguros, acessíveis e eficientes. Indiretamente, isso pode contribuir para cidades mais inteligentes, menos acidentes de trânsito e uma mobilidade urbana mais inclusiva, especialmente em regiões onde a coleta de dados ainda é um desafio. Em resumo, nossa pesquisa mostra que é possível treinar carros autônomos de forma mais econômica e adaptável — um passo importante rumo a um futuro com mobilidade mais acessível e segura para todos.