Um dos aspetos em que o Google mais se aprofundou nas suas soluções de IA foi, segundo me dizem algumas pessoas que conheço no setor, a geração, interpretação, reconhecimento e manipulação de imagens com Nano Banana, que foi integrado no Gemini.
Sem dúvida, um dos muitos pontos fortes deste modelo de linguagem, que resolve um problema que há muito afetava os modelos de geração de imagens, foi o tratamento do texto, o que facilita a utilização do Nano Banana na produção de cartazes e, em geral, em qualquer coisa que requeira texto.
Para contrariar a fama que a Google está a ganhar com este modelo entre a comunidade, a OpenAI anunciou, e já incluiu no ChatGPT e através da API, uma nova versão do ChatGPT Imagens, disponível desde o dia 16 sob o nome GPT-image-1.5.
Esta atualização centra-se em duas necessidades habituais quando se trabalha com a geração de imagens através de IA: que o sistema compreenda melhor o que lhe é pedido e que, ao aplicar alterações, não «danifique» elementos importantes da imagem original. Em termos práticos, a OpenAI indica que o modelo permite começar do zero ou editar fotos já existentes com maior fiabilidade, e que a geração pode ser até quatro vezes mais rápida, o que reduz o atrito quando é necessário iterar várias versões.
O novo modelo é orientado para alterações pontuais que respeitem o que é importante na imagem, mantendo consistentes aspetos como a iluminação, a composição ou a aparência das pessoas. Assim, se uma equipa precisa ajustar um detalhe (por exemplo, um elemento do fundo ou uma mudança de estilo) sem alterar o resto, o sistema procura limitar-se ao solicitado e conservar o resto do conteúdo de forma estável através de edições sucessivas.
Na parte de edição, a OpenAI descreve que o modelo suporta operações como adicionar ou eliminar elementos e combinar conteúdos, com a intenção de que o utilizador obtenha a alteração desejada sem perder características que tornam uma imagem reconhecível. A isso soma-se um foco em transformações criativas que incorporam texto e design, com uma proposta de uso mais orientada para explorar estilos e resultados sem depender necessariamente da redação de prompts longos.
Assim como fazia o Nano Banana, a atualização do ChatGPT Imagens também reforça a renderização de texto dentro das imagens, com melhorias na precisão, mesmo em caracteres pequenos e densos. Na prática, isso afeta casos de uso em que o texto é parte central do ativo visual (como composições do tipo infográfico, peças de comunicação ou maquetes) e onde falhas de legibilidade costumam inutilizar o resultado.
A OpenAI também adiciona melhorias de qualidade adicionais em dimensões específicas, como a representação de vários rostos pequenos e uma aparência mais natural em determinadas cenas. Na secção de avaliação e limites, a empresa indica que voltou a testar exemplos do lançamento inicial para medir o desempenho e que, embora os resultados tenham melhorado, não são perfeitos. Como referência adicional, menciona que num exemplo com conteúdo científico continuam a aparecer imprecisões, embora o modelo acerte cerca de 70% e evite cortes prematuros no gráfico.
Além de atualizar o modelo de geração de imagens do ChatGPT para esta última versão, a OpenAI também atualizou a interface do chatbot para incluir uma secção dedicada exclusivamente a imagens, acessível através da barra lateral tanto na aplicação móvel como na sua interface web.
A empresa destaca que o GPT-image-1.5 na API herda as mesmas melhorias e enfatiza uma preservação mais consistente de logotipos e elementos visuais da marca, além de cenários como a geração de catálogos de produtos (variantes, cenas e ângulos) a partir de uma única imagem fonte.
Em termos de custo, a OpenAI indica que as imagens de entrada e saída são 20% mais baratas no GPT Image 1.5 do que no GPT Image 1, com a ideia de permitir mais iterações mantendo o orçamento.

