O processo envolve duas tecnologias principais: o reconhecimento de imagem e a geração de imagem orientada por texto, os chamados modelos text-to-image e image-to-image. Na prática, funciona assim: o modelo de inteligência artificial analisa a imagem enviada pelo usuário e cruza essas informações com o comando de texto fornecido, o prompt.
É o prompt que define o objetivo da transformação. A IA então interpreta tanto a imagem quanto o pedido e gera um novo retrato, preservando a identidade visual da pessoa, mas inserindo-a em um novo corpo e contexto.
A imagem pode ser feita usando qualquer modelo de IA que aceite fotos como referência, mas os melhores resultados, para o propósito da trend, estão no ChatGPT. Nos nossos testes, modelos do Grok e do Gemini tiveram mais dificuldade em reinterpretar a imagem original.