Pular para o conteúdo

Aniversário de São Paulo: IA vê Catedral da Sé na Paulista – 24/01/2026 – Cotidiano

Banner Aleatório

Qual é a cara de São Paulo? Se a categoria for prédio, alguns podem surgir mais rápido na mente, como a catedral da Sé, o Theatro Municipal e o Masp, o antigo Banespão e até os arranha-céus da Faria Lima. E que grupo de pessoas representaria a essência da cidade, que completa 472 anos neste domingo (25)?

Banner Aleatório

Um debate sobre estes dois aspectos poderia terminar —se é que acabaria— sem consenso e após o aniversário da capital paulista. Plataformas de inteligência artificial, por outro lado, espremem em menos de um minuto quase cinco séculos de história, 1.521 km² de área e 12 milhões de habitantes em dois quadros.

O ChatGPT, ferramenta da OpenAI, reuniu o Municipal, um prédio que se parece com Banespão (atualmente Farol Santander), alguns edifícios que remetem ao Matarazzo (a sede da prefeitura) e os arranha-céus. Ainda arranjou espaço na composição para a ponte estaiada Octavio Frias de Oliveira, que fica a cerca de 15 km do centro da cidade.

Também assentou o Municipal sobre uma mistura de Viaduto do Chá com a avenida 9 de Julho.

Para colher outro ponto de vista, a reportagem questionou o Gemini, ferramenta do Google que tem no Nano Banana seu gerador de imagens. O resultado foi parecido em relação aos prédios espelhados e os que remetem à sede da administração municipal, mas representou outros pontos característicos da cidade, ambos no centro: a catedral da Sé e a cracolândia.

A geração da ferramenta fez algumas intervenções: levou a igreja para a avenida Paulista e a colocou de frente com uma representação que remete à região conhecida pelas cenas abertas de uso de drogas, onde estampou um outdoor dizendo que São Paulo vive, e com o Theatro Municipal.

Para chegar a esses resultados, a Folha pediu às ferramentas imagens que representassem a essência e a identidade da cidade de São Paulo a partir da visão da inteligência artificial.

A origem dessas imagens é similar a uma tela de ruído, o antigo chuvisco exibido nas tevês sem sinal, formada por pixels distribuídos aleatoriamente. A partir dos comandos (prompts), as ferramentas organizam cada pixel para que a forma final se pareça com a probabilidade estatística do que elas conhecem (por meio dos bancos de dados). É o chamado modelo de difusão.

“A IA não sabe o que é São Paulo, ela reconhece padrões de luz, formas e cores que nós, humanos, associamos à cidade, e os organiza de forma que nos pareça verossímil”, afirma Arlindo Galvão, diretor do Centro de Excelência em IA da Universidade Federal de Goiás. O comando de texto é vetorizado, explica o pesquisador, e vai ser uma referência para estreitar uma enorme base de informações de acordo com os vieses: São Paulo, aniversário e outras informações contidas no prompt.

As duas representações demográficas encomendadas pela reportagem são parecidas em relação às pessoas. Ambas as ferramentas representam pessoas brancas, negras e amarelas. Enquanto o Gemini optou por uma cena com ações, como um homem andando de skate, homens de terno caminhando e uma dupla de senhores jogando uma partida de xadrez no que parece ser o Viaduto do Chá, o ChatGPT gerou uma foto posada.

Na imagem, há um torcedor (aparentemente do Corinthians), um idoso de boina segurando um jornal e um homem de quipá de costas para a foto, entre outras pessoas. Todos estão reunidos num local que combina o Masp, o Farol Santander, a Catedral da Sé, uma bandeira do Brasil e, novamente, a ponte estaiada.

Uma mulher negra usa vestimentas em alusão a baianas. “Sabemos que as big techs têm empreendido esforços para produzir imagens que atendam mais a padrões de diversidade”, afirma Victor Pavarin, coordenador de pesquisa no InternetLab. “Mas a própria limitação da lógica de funcionamento desse modelo força a barra algumas vezes ou erra, porque a IA não tem a compreensão de algumas nuances que são fundamentais.”

“Talvez pessoas da Bahia não gostem que uma figura tão representativa em Salvador esteja ali em uma imagem do aniversário de São Paulo.”

Ele diz que as ferramentas são pouco transparentes quanto às bases de dados usadas e a proteção de direitos autorais. Além disso, os modelos são treinados em inglês, não captando detalhes da cultura, aponta Pavarin. “As particularidades ficam de fora desses materiais, e aí temos uma simplificação da expressão humana e uma perda da diversidade cultural.”

É o que também faz, segundo o pesquisador, a IA juntar prédios como o da catedral da Sé e do Theatro Municipal na avenida Paulista. “Ainda que você dê um contexto gigantesco da Freguesia do Ó, acho muito pouco provável que a ferramenta consiga sintetizar uma imagem fiel à paisagem urbana do bairro.”

As perguntas não trataram de comida, mas um detalhe na imagem gerada pelo ChatGPT para as pessoas que compõem São Paulo dá uma pista do que seria a favorita dos paulistanos segundo a IA. Não é, no entanto, cachorro-quente com purê de batata. No canto direito da imagem, é possível ler “ccxxinha”, o que pode ser uma referência ao salgado.

Questionada, a ferramenta disse que foi uma tentativa de “simular a palavra ‘coxinha’, um alimento extremamente associado ao cotidiano paulistano e às barracas de rua, mas que não foi escrita corretamente.” Também disse, mostrando inclusive uma tabela, que capta símbolos nacionais, como a coxinha, mais do que marcadores específicos de São Paulo, como o cachorro-quente com purê.

Em um breve exercício, a reportagem inseriu a palavra “periferia” no prompt. As ferramentas geraram imagens que remetem mais a favelas cariocas, com terrenos que parecem morros.

O Gemini inseriu um carrinho de entrega autônoma ao lado de uma Kombi antiga para, segundo a resposta, mesclar o histórico com o contemporâneo. Também assinou como se a foto fosse do fotógrafo Sebastião Salgado, dizendo que fez um “mix” sobre a temática da desigualdade social abordada pelo fotógrafo e a estética urbana moderna. Ainda sugeriu uma reportagem sobre como a IA enxerga a cultura brasileira por meio de seus grandes expoentes.

O ChatGPT mostrou meninos jogando bola na rua e um ônibus circulando por uma passagem estreita. Ao fundo, a ponte estaiada sobre o rio Pinheiros.

VEJA PROMPTS USADOS PARA GERAÇÃO DAS IMAGENS

Para a cidade: Sou jornalista e estou produzindo uma reportagem sobre como a inteligência artificial vê a cidade de São Paulo por ocasião da celebração dos 472 anos da capital paulista. Crie uma imagem fotorrealista que capture a essência e identidade da cidade de São Paulo, Brasil. A composição deve incluir elementos que representem tanto o cenário contemporâneo quanto aspectos históricos da cidade. Estilo: fotografia urbana profissional, iluminação natural, alta definição.

Para as pessoas: Sou jornalista e estou produzindo uma reportagem sobre como a inteligência artificial vê a cidade de São Paulo por ocasião da celebração dos 472 anos da capital paulista. Crie uma imagem fotorrealista que capture a essência e identidade humana da cidade de São Paulo, Brasil. A composição deve incluir pessoas que representem a diversidade característica da cidade. Capture o aspecto humano que reflete tanto o cotidiano contemporâneo quanto a multiplicidade cultural e histórica da metrópole. Estilo: fotografia de rua profissional, iluminação natural, alta definição.

Source link

Join the conversation

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *