O Google vai liberar novamente a geração de imagens de pessoas em sua ferramenta de inteligência artificial Gemini. O recurso será disponibilizado inicialmente para usuários de planos empresariais e assinantes do Gemini Advanced, apenas em inglês.
Em fevereiro, o Google virou alvo de críticas por seus modelos de IA gerarem imagens historicamente imprecisas. Ao pedir uma ilustração de um soldado nazista alemão, por exemplo, a ferramenta retornava figuras de pessoas negras e asiáticas com fardas militares.
O caso não era exclusivo: a ferramenta errava constantemente em situações do tipo, colocando nativos americanos na Grécia antiga, ou negros e asiáticos como exemplos de senadores nos Estados Unidos do século 19.
Aparentemente, a ferramenta incluir diversidade étnica e de gênero ao gerar imagens, como forma de evitar problemas de discriminação comuns à IA. A empresa admitiu que seus modelos “passaram do ponto” neste aspecto e, em resposta à polêmica, pausou a geração de imagens de pessoas.
Imagen 3 será disponibilizado para todo mundo
A correção faz parte do Imagen 3, novo modelo para geração de imagens. Anunciado em maio de 2024, durante a conferência Google I/O, ele será liberado para todos os usuários ao longo da próxima semana e funciona em todos os idiomas em que o Gemini está disponível.
Reforçando: o modelo estará disponível para todos, mas a geração de pessoas será liberada só em inglês, só para assinantes pagos.
Segundo o Google, a nova IA foi treinada para melhorar a variedade e diversidade de conceitos associados às imagens. A empresa afirma que ampliou os testes internos e externos. Por isso, ela gera figuras de pessoas de forma mais “justa”.
Além disso, o Gemini não vai gerar imagens realistas de pessoas públicas, conteúdos envolvendo menores de idade e cenas sexuais, violentas ou repugnantes.
Controvérsias à parte, o Google diz que o Imagen 3 consegue entender melhor os prompts e gerar imagens de forma mais criativa e detalhada. A empresa menciona paisagens realísticas e pinturas a óleo com textura como exemplos do que a ferramenta é capaz de fazer.
Com informações: Google, The Verge, TechCrunch