Imagine uma gravação em que o rosto não aparece, o áudio é parcial e a qualidade da imagem é ruim. Ainda assim, o perito consegue extrair elementos visuais, sonoros e comportamentais que, combinados, constroem uma narrativa confiável. Esse é o campo da perícia multimodal — a abordagem que analisa diferentes camadas de uma mesma evidência audiovisual de forma integrada.
O que é a perícia multimodal?
É a investigação pericial que cruza dados visuais (imagem e vídeo), dados sonoros (voz, ruídos, silêncio) e dados cinéticos (movimentos, gestos, marcha) para produzir um laudo mais robusto e conclusivo.
É especialmente útil em casos como:
- Câmeras sem áudio ou com áudio deficiente;
- Gravações com baixa resolução ou com obstáculos visuais;
- Vídeos de crimes em locais escuros, com múltiplas vozes, ou cenas confusas.
Quais técnicas são combinadas?
- Reconhecimento de padrões vocais e faciais;
- Análise de marcha ou gestos particulares (ex: forma de sacar uma arma, carregar objetos);
- Leitura labial sincronizada com espectrogramas de áudio;
- Correlação entre som ambiente e objetos visíveis na cena (ex: som de um portão metálico combinando com sua abertura visível).
Um exemplo prático
Em uma investigação de roubo a um caixa eletrônico, a câmera captou imagens sem áudio de um suspeito de capuz. A perícia comparou o modo de caminhar com vídeos anteriores do investigado, identificou gestos repetitivos de manuseio e sincronizou com o som da respiração ofegante captado por uma câmera secundária no local. Juntas, as análises permitiram vincular o suspeito ao crime com alto grau de certeza.
O futuro da perícia é multimodal
Com o crescimento do volume de vídeos e áudios captados por dispositivos variados (celulares, drones, câmeras veiculares, redes sociais), o olhar isolado sobre um único elemento perde força. A perícia moderna precisa ser interdisciplinar e integrada, cruzando sons, imagens e comportamentos com apoio de inteligência artificial e softwares de análise combinada.








