Não é novidade que imaginários de futuros repetem padrões de exclusão, carregam vieses ideológicos e podem reproduzir colonialidades. A pesquisa Visões de Futuro, do grupo DecolonizAI, por exemplo, traz à tona esta questão ao realizar um estudo dirigido que analisou visões históricas de futuro comumente apresentadas por grandes empresas. Alimentados não apenas por correntes de mercado, imaginários de futuros encontram força na cultura digital, especialmente quando, no campo das imagens, somos expostos diariamente a incontáveis telas de conteúdo.
Se pensarmos na cidade como protagonista de imaginários de futuro, esta surge com especial riqueza de detalhes na linguagem escrita do universo literário. São cidades ideais como a de Utopia, distopias tecnológicas de Neuromancer ou até mesmo enclaves latino-americanos de Angosta. Ao invadir a dimensão iconográfica, esses imaginários extrapolam cenas de quadrinhos, ilustrações e pinturas, chegando à imagem-em-movimento. Com cânones de grande popularidade do cinema, como as paisagens cosmopolitas de Metropolis e as icônicas gueixas holográficas de Blade Runner, todas estas narrativas, tanto em prosa quanto em imagem, equilibram pesos entre personagem e lugar. São composições tão preocupadas com suas histórias quanto com a composição estética e espacial de seus universos urbanos.
Na ficção científica, Jameson e Amaral defendem que suas composições visuais ultrapassam uma mera condição de paisagem. Longe de serem caprichos de cena, transformam-se em personagem, verdadeiros dispositivos que fomentam discussões críticas acerca da interseção entre espaço, sociedade e tecnologia. É o caso do subgênero cyberpunk, que, segundo Amaral e Rumpala, tem sedimentado uma estética visual e narrativa ímpares, onde metrópoles caóticas e tecnocracias revelam hiperbolicamente o impacto das tecnologias e seus desdobramentos em dinâmicas socioculturais, políticas, e na própria condição humana.
Toda essa biblioteca de referências desafia as fronteiras entre as imagens de cidades reais, cidades desejadas e cidades já prometidas. São imaginários que se apropriam de repertórios preexistentes, permeados de sonhos e ambiguidades. Consumimos voluntária e involuntariamente imagens de futuros urbanos não apenas do cinema ou da publicidade, mas também de conteúdos produzidos e reproduzidos pelos próprios usuários das redes digitais.
Além de alimentarem nosso imaginário, as imagens assumem hoje um papel de mediação total do cotidiano, revelando-se palco de disputas de identidade e política, como explorado em Políticas da Imagem, por Giselle Beiguelman. Novas dinâmicas de emissão e transmissão de mensagens, em que conteúdos gerados por seus próprios usuários e seus veículos, orquestrados por meio de algoritmos, transformam-se em verdadeiras máquinas de engajamento, vigilância e persuasão.
Em meio à revolução contemporânea da imagem, estas complexas relações simbólicas e políticas moldam a forma como concebemos, experimentamos e produzimos o espaço urbano, conforme Beiguelman e Longhi. As imagens, mais do que representações visuais, tornaram-se campos de batalha onde narrativas são constantemente contestadas, reinventadas e reconfiguradas. Funcionam, inclusive, como instrumentos tanto de emancipação quanto de opressão, dependendo da maneira como são geradas, disseminadas e interpretadas.
Nesta chave, encontramos um importante ingrediente que potencializou a geração de conteúdo e imagens para o público em geral. O ano de 2022 foi, conforme Beiguelman, o ano do “text to tudo: text to text, text to image”. A popularização e o fácil acesso a ferramentas generativas de inteligência artificial (IA) deram início a uma nova fase para a interação humano-computador. Temos a presença cada vez mais forte da visão computacional no cotidiano a partir do momento em que usuários comuns acessam poderosos recursos para geração de textos e imagens, como o ChatGPT e Midjourney.
DALL-E, Midjourney, Stable Diffusion, Veras, entre outros, são alguns dos vários sistemas que utilizam modelos de IA para a geração de imagens. Grande parte destes modelos são treinados por meio de bibliotecas de dados que contêm pares de descrição textual e imagens, como é o caso do ImageNet, um dos maiores repositórios de imagens da internet com cerca de 14 milhões de imagens. Quando as IAs generativas recebem uma instrução textual (prompt), por exemplo, o modelo o codifica em um formato numérico. Esse processo geralmente envolve uma “tokenização”, onde os elementos textuais são divididos em unidades menores (tokens) e então são convertidos em representações numéricas. Essas representações codificadas servem como entrada para uma rede neural artificial.
As redes neurais artificiais, modeladas com base no funcionamento do cérebro humano, são parte crucial desses modelos, aprendendo a mapear as representações de texto codificadas para características visuais correspondentes. Isso envolve treinar a rede em um vasto conjunto de dados de texto-imagem, onde o modelo aprende a entender as relações entre palavras e elementos visuais. Com o tempo, tornam-se eficientes em gerar imagens que se alinham com as descrições textuais propostas. O processo de geração implica que o modelo produza imagens que correspondam ao prompt, combinando e manipulando elementos visuais coerentes com os padrões predeterminados na mecânica de seus algoritmos. Dependendo da arquitetura específica de seu código e da metodologia de treinamento, esses modelos podem incorporar estruturas mais avançadas para realizar essa tarefa.
O Midjourney, por exemplo, é acessado através da plataforma Discord e se destaca por sua interface amigável. Para gerar uma imagem, o usuário insere o texto desejado no campo determinado, onde o comando “/imagine” é utilizado para processar o prompt e retornar quatro imagens resultantes. Assim como outras plataformas de geração de imagens por IA, o Midjourney opera sob um modelo de negócios que oferece um número limitado de gerações gratuitas, após o qual é cobrada uma taxa para a produção adicional de imagens.
A aplicação dessas ferramentas é ampla, permitindo que traduza rapidamente suas ideias em representações visuais. No entanto, a precisão dos resultados também depende das descrições e informações inseridas, havendo a possibilidade de que as imagens geradas não correspondam ao resultado desejado devido a interpretações equivocadas, e dados de treinamento viciados e limitados. As imagens geradas por IA podem resultar em representações excludentes, perpetuando estereótipos e se distanciando de representações mais diversas e inclusivas.
A dissertação Atlas transverso: da cidade vigilante ao hiperterritório apresentou uma série de estudos visuais a fim de discutir a influência da cultura digital sobre a representação de espaços urbanos. Entre julho de 2022 e agosto de 2023, a pesquisa utilizou os sistemas DALLE-E 2 e Midjourney (v3/v4/v5) para gerar cerca de 300 imagens com inteligência artificial. Como resultado, as imagens de futuros urbanos geradas por IA mesclaram realidade e ficção, oferecendo metáforas que questionaram a forma com que essas ferramentas podem ser utilizadas ao explorar até que ponto poderiam carregar traços ideológicos e características culturais com direta influência de grandes blocos hegemônicos.
Um exemplo claro foi um experimento comparativo através do Midjourney que pôs lado a lado o resultado de uma imagem que almejava apresentar uma visão de futuro urbano genérico em contraste com uma visão de futuro urbano brasileiro. Na primeira imagem, à esquerda, vê-se a representação de um futuro de alta tecnologia, enquanto, na segunda imagem, vê-se uma paisagem aparentemente sem avanços significativos e muito próxima da realidade atual quando introduzida a palavra em inglês “Brazilian” em seu prompt.
Os ensaios seguiram com a tentativa de captar uma imagem do Brasil no futuro, que revelou resultados não muito animadores. A seguir apresentou edificações tradicionais, retilíneas e pesadas, quiçá resquícios de uma arquitetura brutalista que sofreu as consequências do tempo nos trópicos. Neste momento, segundo o Midjourney, a cidade brasileira do futuro teria suas calçadas em terra batida, povoada por multidões que se agrupam em meio a copas de árvores e rarefeitos bolsões de grama.
Ainda neste estudo, um resultado marcante se encontra na imagem a seguir (à esquerda), cujo resultado do prompt “a crowded space in the brazilian city of the future” apresentou uma figura feminina com expressão apreensiva ao centro de uma realidade urbana facilmente encontrada em qualquer cidade brasileira da atualidade. Com nuvens acinzentadas e aspecto caótico, fica próxima de outros resultados com o prompt “a street in the latin american city of the future” (à direita), mas longe de qualquer utopia mais otimista oriunda de prompts mais genéricos como “the city of the future”, logo na sequência.
Estes ensaios denunciam diferenças claras nas imagens de futuros urbanos do Cone Sul em contraste com as imagens de países mais abastados do Norte global. O uso e interpretação de dados presentes nestas diferenças destacam a importância de um engajamento crítico com as tecnologias de IA. Afinal, passam a alimentar imaginários comuns tão presentes quanto o cinema e a literatura. Embora essas ferramentas ofereçam novas possibilidades para a criação e experimentação nas artes, na arquitetura, no design e em tantas outras áreas, é crucial entender suas limitações e vieses. Assim como a tecnologia, imagens geradas por IA não são neutras, muito menos isentas de desempenhar papéis em nossa cultura; são engendradas por códigos e dados que refletem estruturas sociais e culturais preexistentes.
Conforme apresentado nos estudos citados anteriormente, à medida que a inteligência artificial avança, aliada às tecnologias de visão computacional, há um risco crescente de que algoritmos perpetuem exclusões e reforcem iconografias hegemônicas. Isto pode levar à reprodução e difusão de imaginários que privilegiam certos grupos ou perspectivas em detrimento de outros, limitando a diversidade visual e reforçando desigualdades.
O processo de treinamento dos modelos de IA generativa de imagens, refletindo capacidades técnicas e influências culturais e sociais, introduz um paradigma na interpretação relacional dessas imagens. A dualidade entre programadores e usuários ressalta a necessidade de engajamento ativo e questionador na cultura digital, sublinhando a relevância de superar uma utilização descompromissada para buscar um usufruto mais consciente das tecnologias de inteligência artificial e seus efeitos na sociedade.
Essas tantas imagens de futuros urbanos criadas e recriadas por IA podem ser comparadas às quimeras da mitologia e do folclore, na medida em que representam uma fusão de elementos distintos e, por vezes, incongruentes. Assim como a quimera tradicional, composta com a cabeça de um leão, corpo de uma cabra e cauda de um dragão, essas imagens recombinam milhares de imagens para criar visões que desafiam nossa compreensão do espaço e da forma urbana. No contexto contemporâneo, onde a “quimera” simboliza algo ilusório ou inatingível, essas representações botam em xeque o imaginário da cidade que se deseja e da cidade que se precisa.
________________
(As opiniões expressas nos artigos publicados no Jornal da USP são de inteira responsabilidade de seus autores e não refletem opiniões do veículo nem posições institucionais da Universidade de São Paulo. Acesse aqui nossos parâmetros editoriais para artigos de opinião.)