As ferramentas de IA generativas do Google estão recebendo alguns dos impulsos que a empresa apresentou no Google I/O. A partir desta semana, a empresa está lançando a versão de próxima geração do seu gerador de imagens Imagen, que reintroduz a capacidade de gerar pessoas de IA (após uma controvérsia embaraçosa no início deste ano). O chatbot Gemini do Google também adiciona Gems, a abordagem da empresa para bots com instruções personalizadas, semelhantes aos GPTs personalizados do ChatGPT.
O Imagen 3 do Google é a versão atualizada do seu gerador de imagens, chegando ao Gemini. A empresa diz que o modelo de IA de próxima geração “estabelece um novo padrão para qualidade de imagem” e é construído com proteções para evitar correção excessiva para diversidade, como as bizarras imagens históricas de IA que se tornaram virais no começo deste ano.
“Em uma ampla gama de benchmarks, o Imagen 3 tem um desempenho favorável em comparação a outros modelos de geração de imagens disponíveis”, escreveu o gerente de produtos da Gemini, Dave Citron, em um comunicado à imprensa. A ferramenta permite que você oriente a geração de imagens com prompts adicionais se não gostar do que ela exibe na primeira vez.
Citron diz que o Imagen 3 tem um desempenho “favorável” em comparação com a concorrência. Ele também inclui a ferramenta SynthID do Google para marcar imagens com marca d’água, deixando claro que elas são feitas por IA e não o artigo genuíno.
Citron diz que a capacidade de gerar pessoas retornará nos próximos dias para usuários pagos, meses após o Google ter retirado o recurso. Ele diz que novas proteções impedirão a geração de “indivíduos fotorrealistas e identificáveis” — muito diferente dos problemáticos deepfakes gerados pelo Grok de Elon Musk. Também estão fora dos limites crianças e (como em outros geradores de imagens) quaisquer cenas sangrentas, violentas ou sexuais. O gerente de produto fundamenta as expectativas dizendo que as imagens da Gemini não serão perfeitas, mas ele promete que a empresa continuará a ouvir o suggestions do usuário e a refinar de acordo.
A partir desta semana, o modelo Imagen 3 estará disponível para todos os usuários, mas a reintrodução de imagens com pessoas começará com usuários pagos. Usuários Gemini Superior, Enterprise e Enterprise que falam inglês podem esperar que a geração de imagens humanas retorne “nos próximos dias”.
Inicialmente visualizados no Google I/O 2024, os Gems são chatbots personalizados do Google com instruções criadas pelo usuário. É essencialmente a resposta da Gemini aos GPTs da OpenAI, que o concorrente do Google lançou no remaining do ano passado. Os Gems começam a ser lançados nos próximos dias.
“Com Gems, você pode criar uma equipe de especialistas para ajudar você a pensar em um projeto desafiador, fazer um brainstorming de ideias para um evento futuro ou escrever a legenda perfeita para uma publicação de mídia social”, escreveu Citron. “Sua Gem também pode lembrar de um conjunto detalhado de instruções para ajudar você a economizar tempo em tarefas tediosas, repetitivas ou difíceis.”
Além da lousa em branco de Gems personalizadas, Gemini incluirá algumas pré-fabricadas “para ajudar você a começar” e inspirar novas ideias. As Gems pré-fabricadas incluem:
Treinador de aprendizagem – para ajudar você a entender tópicos complexos
Tempestade de ideias – para inspirar novas ideias
Guia de carreira – orientá-lo nas atualizações de habilidades, decisões e metas
Editor de escrita – fornecer suggestions construtivo sobre gramática, tom e estrutura
Parceiro de codificação – atualizar as habilidades de codificação para desenvolvedores e inspirar novos projetos
As Gems começam a ser lançadas hoje para desktop e dispositivos móveis. No entanto, elas estão disponíveis apenas para assinantes Gemini Superior, Enterprise e Enterprise, então você precisará de um plano pago para testá-las.