A inteligência artificial (IA) tem vindo a transformar a forma como criamos e editamos imagens, proporcionando resultados impressionantes. No entanto, não é raro encontrar problemas estranhos nas imagens geradas por IA, como pessoas com dentes a mais ou paisagens urbanas com layouts confusos ao estilo de Escher. A Google está a trabalhar para resolver estas questões com o seu projeto Gemini, que promete melhorias significativas na criação e edição de imagens por IA.
O Google Gemini está a desenvolver uma funcionalidade de afinação que permitirá aos utilizadores fazer edições detalhadas nas imagens geradas por IA. Esta funcionalidade foi descoberta em código inacabado pela Android Authority, indicando que a Google está a preparar-se para lançar uma ferramenta que pode revolucionar a forma como interagimos com imagens geradas por IA.
Atualmente, as ferramentas de texto-para-imagem do Google Gemini não permitem edições após a criação da imagem. Os utilizadores têm de submeter novos prompts, na esperança de que a nova solicitação corrija os problemas e produza algo mais próximo do desejado. Este processo pode ser especialmente frustrante quando há apenas um pequeno erro que precisa de ser corrigido.
A nova funcionalidade de afinação do Gemini abordará esta necessidade de mudanças limitadas através de dois métodos de edição:
- Submissão de Prompt: Os utilizadores poderão submeter um prompt sobre uma imagem gerada por IA e pedir uma alteração a um aspeto específico. Por exemplo, se gostarem de uma imagem mas quiserem mudar o fundo para uma cidade, poderão manter os elementos principais e apenas alterar o cenário.
- Edição Interativa: Os utilizadores poderão selecionar a parte da imagem que desejam alterar usando o dedo ou uma caneta. Depois de selecionar a área, poderão descrever as mudanças desejadas, e o Gemini entenderá que as instruções se aplicam apenas à secção circundada.
Benefícios para Profissionais e Utilizadores Casuais
Estas ferramentas de edição serão particularmente úteis para profissionais em áreas como design gráfico, marketing e redes sociais, onde a precisão visual e a rapidez são cruciais. O Google Gemini poderá servir melhor as necessidades de artistas, designers e utilizadores casuais que procuram criar conteúdo visual polido de forma mais eficiente.
Embora a data exata de lançamento destas funcionalidades ainda seja incerta, a sua presença no código sugere que não demorará muito a chegar. Esta atualização também complementa outras funcionalidades relacionadas, como a próxima funcionalidade de pesquisa de imagens “Ask Photos”.
Competição e Inovação no Campo da IA
A Google não será a primeira a implementar ferramentas de edição em criadores de imagens por IA. Métodos semelhantes já estão disponíveis nos modelos de criação de imagens da OpenAI, como o Dall-E. No ChatGPT, os utilizadores podem pedir ajustes a uma imagem já produzida ou destacar partes dela e submeter um novo prompt para ajustar essa parte específica.
Existem funcionalidades semelhantes em muitos criadores de imagens por IA, como o Ideogram.ai e o Adobe Firefly. No entanto, o plano da Google de incorporar estas ferramentas de afinação representa um avanço técnico significativo para o Gemini. Isto marca a contínua aposta da Google em igualar e superar os seus rivais, como a OpenAI e a Meta, no campo das ferramentas de IA generativa.
Fonte: Techradar