Pular para o conteúdo

Deepfakes menores podem ser a maior ameaça

Banner Aleatório

Ferramentas de IA conversacional, como ChatGPT e Google Gemini, estão sendo usadas para criar deepfakes que não trocam rostos, mas que, de maneiras mais sutis, podem reescrever toda a história dentro de uma imagem. Ao alterar gestos, acessórios e fundos, essas edições enganam tanto os detectores de IA quanto os humanos, aumentando as chances de identificar o que é real online.

Banner Aleatório

 

No clima actual, especialmente na sequência de uma legislação significativa como a DESMONTE-O ato, muitos de nós associamos deepfakes e síntese de identidade orientada por IA com pornografia de IA não consensual e manipulação política – em geral, bruto distorções da verdade.

Isso nos acostuma a esperar que imagens manipuladas por IA sempre sejam usadas em conteúdos de alto risco, onde a qualidade da renderização e a manipulação do contexto podem ter sucesso em obter um golpe de credibilidade, pelo menos no curto prazo.

Historicamente, porém, alterações muito mais subtis tiveram frequentemente um efeito mais sinistro e duradouro – como o truque fotográfico de última geração que permitiu a Estaline remova aqueles que havia caído em desuso no registro fotográfico, conforme satirizado no romance de George Orwell Mil novecentos e oitenta e quatro, onde o protagonista Winston Smith passa seus dias reescrevendo a história e tendo fotos criadas, destruídas e “emendadas”.

No exemplo a seguir, o problema com o segundo a imagem é que ‘não sabemos o que não sabemos’ – que o antigo chefe da polícia secreta de Stalin, Nikolai Yezhov, costumava ocupar o espaço onde agora há apenas uma barreira de segurança:

Agora você o vê, agora ele é... vapor. A manipulação fotográfica da era Stalin remove um membro desgraçado do partido da história. Fonte: Domínio público, via https://www.rferl.org/a/soviet-airbrushing-the-censors-who-scratched-out-history/29361426.html

Agora você o vê, agora ele é… vapor. A manipulação fotográfica da era Stalin remove um membro desgraçado do partido da história. Fonte: Domínio público, via https://www.rferl.org/a/soviet-airbrushing-the-censors-who-scratched-out-history/29361426.html

Correntes desse tipo, frequentemente repetidas, persistem de muitas maneiras; não apenas culturalmente, mas na própria visão computacional, que deriva tendências de temas e motivos estatisticamente dominantes em conjuntos de dados de treinamento. Para dar um exemplo, o fato de os smartphones terem reduzido a barreira de entrada, e massivamente reduziu o custo da fotografia, o que significa que sua iconografia se tornou inelutavelmente associada a muitos conceitos abstratos, mesmo quando isso não é apropriado.

Se o deepfaking convencional pode ser percebido como um ato de “agressão”, pequenas alterações perniciosas e persistentes em mídias audiovisuais assemelham-se mais ao “gaslighting”. Além disso, a capacidade desse tipo de deepfaking de passar despercebido dificulta sua identificação por meio de sistemas de detecção de deepfakes de última geração (que buscam alterações grosseiras). Essa abordagem se assemelha mais à água desgastando uma rocha por um período prolongado do que a uma rocha apontada para uma cabeça.

MultiFakeVerse

Pesquisadores da Austrália fizeram uma tentativa de resolver a falta de atenção ao deepfaking “sutil” na literatura, selecionando um novo conjunto de dados substancial de manipulações de imagens centradas na pessoa que alteram o contexto, a emoção e a narrativa sem mudar a identidade central do sujeito:

Amostras da nova coleção, pares real/falso, com algumas alterações mais sutis do que outras. Observe, por exemplo, a perda de autoridade para a mulher asiática, no canto inferior direito, quando o estetoscópio do seu médico é removido pela IA. Ao mesmo tempo, a substituição da prancheta pelo bloco de notas do médico não tem um ângulo semântico óbvio. Fonte: https://huggingface.co/datasets/parulgupta/MultiFakeVerse_preview

Amostras da nova coleção, pares real/falso, com algumas alterações mais sutis do que outras. Observe, por exemplo, a perda de autoridade para a mulher asiática, no canto inferior direito, quando o estetoscópio do seu médico é removido pela IA. Ao mesmo tempo, a substituição da prancheta pelo bloco de notas do médico não tem um ângulo semântico óbvio.. Fonte: https://huggingface.co/datasets/parulgupta/MultiFakeVerse_preview

Intitulado MultiFakeVerse, a coleção consiste em 845,826 imagens geradas por meio de modelos de linguagem de visão (VLMs), que podem ser acessado online e baixado, com permissão.

Os autores declaram:

‘Essa abordagem orientada por VLM permite alterações semânticas e contextuais, como modificação de ações, cenas e interações entre humanos e objetos, em vez de trocas de identidade sintéticas ou de baixo nível e edições específicas de região, comuns em conjuntos de dados existentes.

‘Nossos experimentos revelam que os modelos atuais de detecção de deepfakes de última geração e os observadores humanos têm dificuldade para detectar essas manipulações sutis, porém significativas.’

Os pesquisadores testaram humanos e os principais sistemas de detecção de deepfakes em seu novo conjunto de dados para verificar a eficácia da identificação dessas manipulações sutis. Os participantes humanos tiveram dificuldades, classificando corretamente as imagens como reais ou falsas em apenas cerca de 62% das vezes, e tiveram dificuldade ainda maior em identificar quais partes da imagem haviam sido alteradas.

Os detectores de deepfake existentes, treinados principalmente em conjuntos de dados mais óbvios de troca de rosto ou pintura interna, também tiveram um desempenho ruim, muitas vezes falhando em registrar a ocorrência de qualquer manipulação. Mesmo depois afinação no MultiFakeVerse, as taxas de detecção permaneceram baixas, expondo o quão mal os sistemas atuais lidam com essas edições sutis baseadas em narrativas.

A novo papel é intitulado Multiverso por meio de deepfakes: o conjunto de dados MultiFakeVerse de manipulações visuais e conceituais centradas na pessoa, e vem de cinco pesquisadores da Universidade Monash em Melbourne e da Universidade Curtin em Perth. O código e os dados relacionados foram divulgados no GitHub, além da hospedagem do Hugging Face mencionada anteriormente.

Forma

O conjunto de dados MultiFakeVerse foi criado a partir de quatro conjuntos de imagens do mundo real apresentando pessoas em situações diversas: EMOTIC; PISC, TUBO e PIC 2.0. Começando com 86,952 imagens originais, os pesquisadores produziram 758,041 versões manipuladas.

A Gemini-2.0-Flash e Bate-papoGPT-4o foram usadas estruturas para propor seis edições mínimas para cada imagem – edições projetadas para alterar sutilmente como a pessoa mais proeminente na imagem seria percebida pelo observador.

Os modelos foram instruídos a gerar modificações que fizessem o sujeito parecer ingénuo, orgulhoso, arrependido, inexperienteou indiferente, ou para ajustar algum elemento factual dentro da cena. Junto com cada edição, os modelos também produziam uma expressão referente para identificar claramente o alvo da modificação, garantindo que o processo de edição subsequente possa aplicar as alterações à pessoa ou objeto correto dentro de cada imagem.

Os autores esclarecem:

‘Observe que expressão referente é um domínio amplamente explorado na comunidade, o que significa uma frase que pode desambiguar o alvo em uma imagem, por exemplo, para uma imagem com dois homens sentados em uma mesa, um falando ao telefone e o outro olhando documentos, uma expressão de referência adequada para o último seria o homem à esquerda segurando um pedaço de papel.’

Uma vez definidas as edições, a manipulação da imagem propriamente dita foi realizada, solicitando aos modelos de visão e linguagem que aplicassem as alterações especificadas, deixando o restante da cena intacto. Os pesquisadores testaram três sistemas para essa tarefa: GPT-Imagem-1; Gemini-2.0-Geração-de-Imagens-Flash; e ICEditar.

Depois de gerar vinte e duas mil imagens de amostra, o Gemini-2.0-Flash surgiu como o método mais consistente, produzindo edições que se misturavam naturalmente à cena sem introduzir artefatos visíveis; o ICEdit frequentemente produzia falsificações mais óbvias, com falhas perceptíveis nas regiões alteradas; e o GPT-Image-1 ocasionalmente afetava partes não intencionais da imagem, em parte devido à sua conformidade com proporções de aspecto de saída fixas.

Análise de imagem

Cada imagem manipulada foi comparada com a original para determinar o quanto da imagem havia sido alterada. As diferenças em nível de pixel entre as duas versões foram calculadas, com pequenos ruídos aleatórios filtrados para focar em edições significativas. Em algumas imagens, apenas pequenas áreas foram afetadas; em outras, até oitenta por cento da cena foi modificado.

Para avaliar o quanto o significado de cada imagem mudou à luz dessas alterações, foram geradas legendas para as imagens originais e manipuladas usando o CompartilharGPT-4V modelo de visão-linguagem.

Essas legendas foram então convertidas em embeddings usando Clipe longo, permitindo uma comparação da divergência de conteúdo entre as versões. As mudanças semânticas mais significativas foram observadas nos casos em que objetos próximos ou que envolviam diretamente a pessoa foram alterados, uma vez que esses pequenos ajustes poderiam alterar significativamente a interpretação da imagem.

O Gemini-2.0-Flash foi então usado para classificar o tipo de manipulação aplicada a cada imagem, com base em onde e como as edições foram feitas. As manipulações foram agrupadas em três categorias: nível de pessoa as edições envolveram mudanças na expressão facial, pose, olhar, roupa ou outras características pessoais do sujeito; nível de objeto edita itens afetados conectados à pessoa, como objetos que ela estava segurando ou com os quais interagia em primeiro plano; e nível de cena as edições envolviam elementos de fundo ou aspectos mais amplos do cenário que não envolviam diretamente a pessoa.

O pipeline de geração do conjunto de dados MultiFakeVerse começa com imagens reais, onde modelos de visão e linguagem propõem edições narrativas direcionadas a pessoas, objetos ou cenas. Essas instruções são então aplicadas por modelos de edição de imagem. O painel direito mostra a proporção de manipulações em nível de pessoa, objeto e cena em todo o conjunto de dados. Fonte: https://arxiv.org/pdf/2506.00868

O pipeline de geração do conjunto de dados MultiFakeVerse começa com imagens reais, onde modelos de visão e linguagem propõem edições narrativas direcionadas a pessoas, objetos ou cenas. Essas instruções são então aplicadas por modelos de edição de imagens. O painel direito mostra a proporção de manipulações em nível de pessoa, objeto e cena em todo o conjunto de dados. Fonte: https://arxiv.org/pdf/2506.00868

Como imagens individuais podiam conter vários tipos de edições simultaneamente, a distribuição dessas categorias foi mapeada em todo o conjunto de dados. Aproximadamente um terço das edições visava apenas a pessoa, cerca de um quinto afetava apenas a cena e cerca de um sexto limitava-se a objetos.

Avaliando o Impacto Perceptual

O Gemini-2.0-Flash foi usado para avaliar como as manipulações poderiam alterar a percepção do espectador em seis áreas: emoção, identidade pessoal, poder dinâmica, narrativa de cena, intenção de manipulação e preocupações éticas.

Para a emoção, as edições eram frequentemente descritas com termos como alegre, noivandoou acessível, sugerindo mudanças na forma como os sujeitos eram enquadrados emocionalmente. Em termos narrativos, palavras como profissional or diferente mudanças indicadas na história ou cenário implícito:

O Gemini-2.0-Flash foi solicitado a avaliar como cada manipulação afetava seis aspectos da percepção do espectador. À esquerda: exemplo de estrutura de prompt que orienta a avaliação do modelo. À direita: nuvens de palavras resumindo mudanças em emoção, identidade, narrativa da cena, intenção, dinâmica de poder e preocupações éticas em todo o conjunto de dados.

O Gemini-2.0-Flash foi solicitado a avaliar como cada manipulação afetava seis aspectos da percepção do espectador. À esquerda: exemplo de estrutura de prompt que orienta a avaliação do modelo. À direita: nuvens de palavras resumindo mudanças em emoção, identidade, narrativa da cena, intenção, dinâmica de poder e preocupações éticas em todo o conjunto de dados.

As descrições de mudanças de identidade incluíam termos como mais jovens, brincalhão e vulnerável, mostrando como pequenas mudanças poderiam influenciar a forma como os indivíduos eram percebidos. A intenção por trás de muitas edições foi rotulada como persuasivo, enganosaou estético. Embora a maioria das edições tenha sido considerada como levantando apenas preocupações éticas leves, uma pequena fração foi vista como portadora de implicações éticas moderadas ou severas.

Exemplos do MultiFakeVerse mostrando como pequenas edições alteram a percepção do espectador. Caixas amarelas destacam as regiões alteradas, acompanhadas de análises sobre mudanças emocionais, de identidade, narrativas e questões éticas.

Exemplos do MultiFakeVerse mostrando como pequenas edições alteram a percepção do espectador. Caixas amarelas destacam as regiões alteradas, acompanhadas de análises sobre mudanças emocionais, de identidade, narrativas e questões éticas.

Métrica

A qualidade visual da coleção MultiFakeVerse foi avaliada usando três métricas padrão: Relação sinal-ruído de pico (PSNR); Índice de similaridade estrutural (SSIM); e Distância inicial de Fréchet (FID):

Pontuações de qualidade de imagem para MultiFakeVerse medidas por PSNR, SSIM e FID.

Pontuações de qualidade de imagem para MultiFakeVerse medidas por PSNR, SSIM e FID.

A pontuação SSIM de 0.5774 reflete um grau moderado de similaridade, consistente com o objetivo de preservar a maior parte da imagem ao aplicar edições direcionadas; a pontuação FID de 3.30 sugere que as imagens geradas mantêm alta qualidade e diversidade; e um valor PSNR de 66.30 decibéis indica que as imagens mantêm boa fidelidade visual após a manipulação.

Estudo do usuário

Um estudo com usuários foi realizado para verificar a capacidade das pessoas de identificar falsificações sutis no MultiFakeVerse. Dezoito participantes viram cinquenta imagens, divididas igualmente entre exemplos reais e manipulados, abrangendo uma variedade de tipos de edição. Cada pessoa foi solicitada a classificar se a imagem era real ou falsa e, em caso afirmativo, a identificar que tipo de manipulação havia sido aplicada.

A precisão geral para decidir entre real e falso foi de 61.67%, o que significa que os participantes classificaram incorretamente as imagens mais de um terço das vezes.

Os autores declaram:

‘Analisando as previsões humanas dos níveis de manipulação para as imagens falsas, a intersecção média sobre a união entre os níveis de manipulação previstos e reais foi de 24.96%.

‘Isso mostra que não é trivial para observadores humanos identificar as regiões de manipulações em nosso conjunto de dados.’

A construção do conjunto de dados MultiFakeVerse exigiu recursos computacionais extensivos: para gerar instruções de edição, mais de 845,000 chamadas de API foram feitas aos modelos Gemini e GPT, com essas tarefas de solicitação custando cerca de US$ 1000; a produção das imagens baseadas no Gemini custou aproximadamente US$ 2,867; e a geração de imagens usando o GPT-Image-1 custou aproximadamente US$ 200. As imagens do ICEdit foram criadas localmente em uma GPU NVIDIA A6000, concluindo a tarefa em aproximadamente XNUMX horas.

Testes

Antes dos testes, o conjunto de dados era dividido em conjuntos de treinamento, validação e teste, selecionando inicialmente 70% das imagens reais para treinamento; 10% para validação; e 20% para teste. As imagens manipuladas geradas a partir de cada imagem real foram atribuídas ao mesmo conjunto que a original correspondente.

Mais exemplos de conteúdo real (esquerda) e alterado (direita) do conjunto de dados.

Mais exemplos de conteúdo real (esquerda) e alterado (direita) do conjunto de dados.

O desempenho na detecção de falsificações foi medido usando a precisão do nível da imagem (se o sistema classifica corretamente toda a imagem como real ou falsa) e Pontuações F1. Para localizar regiões manipuladas, a avaliação utilizada Área sob a curva (AUC), pontuações F1 e intersecção sobre união (IoU).

O conjunto de dados MultiFakeVerse foi usado em relação aos principais sistemas de detecção de deepfake no conjunto de teste completo, com as estruturas rivais sendo CNNSpot; AntifakePrompt; TruFor; e a visão baseada na linguagem SIDA. Cada modelo foi avaliado primeiramente em tiro zero modo, usando seu pré-treinamento original pesos sem ajustes adicionais.

Dois modelos, CnnSpot e SIDA, foram então ajustado nos dados de treinamento do MultiFakeVerse para avaliar se o retreinamento melhorou o desempenho.

Resultados da detecção de deepfake no MultiFakeVerse em condições de disparo zero e ajuste fino. Os números entre parênteses mostram as alterações após o ajuste fino.

Resultados da detecção de deepfake no MultiFakeVerse em condições de disparo zero e ajuste fino. Os números entre parênteses mostram as alterações após o ajuste fino.

Destes resultados, os autores afirmam:

Os modelos treinados em falsificações anteriores baseadas em inpainting têm dificuldade em identificar nossas falsificações baseadas em edição VLM, em particular, o CNNSpot tende a classificar quase todas as imagens como reais. O AntifakePrompt tem o melhor desempenho de disparo zero, com precisão média de 66.87% por classe e pontuação F55.55 de 1%.

‘Após o ajuste fino em nosso conjunto de trem, observamos uma melhoria de desempenho tanto no CNNSpot quanto no SIDA-13B, com o CNNSpot superando o SIDA-13B em termos de precisão média por classe (em 1.92%) e F1-Score (em 1.97%).’

O SIDA-13B foi avaliado no MultiFakeVerse para medir a precisão com que conseguia localizar as regiões manipuladas em cada imagem. O modelo foi testado tanto no modo de disparo zero quanto após o ajuste fino do conjunto de dados.

Em seu estado original, atingiu uma pontuação de intersecção sobre união de 13.10, uma pontuação F1 de 19.92 e uma AUC de 14.06, refletindo um fraco desempenho de localização.

Após o ajuste fino, as pontuações melhoraram para 24.74 para IoU, 39.40 para F1 e 37.53 para AUC. No entanto, mesmo com treinamento adicional, o modelo ainda teve dificuldade em encontrar exatamente onde as edições haviam sido feitas, destacando a dificuldade de detectar esse tipo de alteração pequena e direcionada.

Conclusão

O novo estudo expõe um ponto cego na percepção humana e das máquinas: embora grande parte do debate público em torno dos deepfakes tenha se concentrado em trocas de identidade que chamam a atenção, essas “edições narrativas” mais silenciosas são mais difíceis de detectar e potencialmente mais corrosivas a longo prazo.

À medida que sistemas como o ChatGPT e o Gemini assumem um papel mais ativo na geração deste tipo de conteúdo, e à medida que nós próprios participar cada vez mais ao alterar a realidade de nossos próprios fluxos de fotos, modelos de detecção que dependem da detecção de manipulações grosseiras podem oferecer defesa inadequada.

O que o MultiFakeVerse demonstra não é que a detecção falhou, mas que pelo menos parte do problema pode estar mudando para uma forma mais difícil e lenta: uma forma em que pequenas mentiras visuais se acumulam sem serem notadas.

 

Primeira publicação na quinta-feira, 5 de junho de 2025

Source link

Join the conversation

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *