Basta abrir uma janela de chat, escrever uma pergunta e, em poucos segundos, o cursor começa a piscar, desenhando palavras que formam frases coerentes, parágrafos estruturados e até piadas, ainda que de gosto duvidoso. Para o utilizador comum, a experiência de usar ferramentas como o ChatGPT ou o Gemini assemelha-se a conversar com uma pessoa com um conhecimento quase infinito, mas muito convencida — ao ponto de apresentar informação errada com a mesma convicção com que apresenta uma resposta correcta.
No entanto, se levantarmos o capô desta tecnologia, não encontramos um pequeno humano digital, nem sequer um sistema que imita o nosso cérebro, mas sim uma calculadora gigante de probabilidades.
O que temos à nossa frente são os chamados LLM, ou large language models (grandes modelos de linguagem). Para desmistificar o termo, imagine o sistema de texto preditivo do seu telemóvel — aquele que sugere a palavra seguinte quando está a escrever uma mensagem —, mas que tomou uma dose maciça de esteróides e leu quase toda a Internet.
Em essência, um LLM não “sabe” o que é a Revolução Francesa ou a melhor receita de bacalhau para o Natal. E, muito menos, é capaz de pensar como os seres humanos. O que o LLM sabe é que, estatisticamente, depois das palavras “revolução” e “francesa”, há uma enorme probabilidade de surgirem palavras como “1789”, “liberdade” ou “Bastilha”. Ou que “bacalhau” tem uma relação próxima com “Portugal” e “Natal”. Os LLM são mestres a completar padrões, treinados para prever — não adivinhar, que essa é uma faculdade humana — o que vem a seguir, palavra por palavra (ou, mais tecnicamente, token por token).
Como é educada a máquina?
Mas como é que estes modelos de inteligência artificial aprendem? A criação de um LLM começa com uma fase intensiva de “leitura”, denominada treino. Os engenheiros alimentam o sistema com quantidades astronómicas de texto: livros, artigos da Wikipédia, sites de notícias, código de programação e conversas de fóruns. Estamos a falar de biliões de palavras, nem sempre de fontes fiáveis. Sobre isto, é importante referir que há modelos de linguagem mais fechados, onde a informação usada para alimentá-los é certificada — é, por exemplo, o caso de modelos aplicados em soluções médicas ou judiciais.
Durante este processo, que pode demorar meses, o modelo não está a memorizar frases. Está a criar um mapa matemático das relações entre as palavras. O modelo aprende que “rei” e “rainha” têm uma relação semelhante a “homem” e “mulher”. Aprende a gramática, a sintaxe e até o sarcasmo, não porque lhe ensinaram as regras numa sala de aula, mas porque viu tantos exemplos que deduziu as regras sozinho. É como se alguém aprendesse a falar português apenas por ser fechado numa biblioteca durante cem anos, lendo tudo sem nunca ouvir ninguém falar.
O que são os GPU da Nvidia de que tanto se fala?
Todo este processo exige um poder de computação brutal. É aqui que entra o hardware e uma curiosidade tecnológica: os chips que hoje tornam a inteligência artificial (IA) possível foram, originalmente, criados para videojogos. A Nvidia tem liderado este mercado, já com várias gerações de chips gráficos.
Para perceber as razões desta escolha, devemos analisar a diferença entre o processador principal do nosso computador (CPU) e o processador gráfico (GPU), normalmente instalado num componente denominado placa gráfica. O CPU é como um professor universitário brilhante: consegue resolver problemas complexos, mas resolve um de cada vez, de forma sequencial. Já o GPU é como uma turma de mil alunos do ensino básico: individualmente, cada um só sabe fazer contas simples, mas conseguem fazer mil contas ao mesmo tempo.
Na inteligência artificial, não é preciso resolver uma equação supercomplexa de cada vez; precisamos de realizar milhões de pequenas multiplicações em simultâneo para ajustar os “pesos” (as tais conexões matemáticas) do modelo. Os processadores gráficos (GPU), com a sua capacidade de processamento em paralelo, são perfeitos para esta tarefa. Sem eles, treinar um modelo de LLM, como o GPT-5 usado pelo ChatGPT, com um CPU tradicional poderia levar séculos em vez de meses.
O que é uma fábrica de IA?
É comum falarmos da “nuvem” como se a Internet fosse um lugar etéreo, feito de vapor e dados leves. Mas a realidade física da inteligência artificial é pesada, ruidosa e quente. O termo “fábrica de IA” tem vindo a ganhar força entre os especialistas para descrever os centros de dados mais recentes. Já não são apenas armazéns passivos de ficheiros; são instalações industriais activas que “fabricam” inteligência 24 horas por dia, sete dias por semana. Esta diferença básica, armazenar ficheiro ou processar informação, muda por completo a forma como são projectados e a forma como operam estes centros de dados.
Os centros de dados dedicados à IA precisam de grandes sistemas de refrigeração para manter os processadores de alto desempenho a funcionarem
Rui Gaudêncio
Uma característica curiosa destas novas fábricas é que a capacidade já não se mede em bytes (armazenamento), mas em megawatts (potência energética). Porquê? Porque o limite destas instalações deixou de ser o espaço físico para guardar discos rígidos e passou a ser a quantidade de energia que conseguem “injectar” nos processadores.
Os chips de IA são vorazes. Enquanto um computador normal passa a maior parte do tempo “a dormir”, os processadores de IA operam perto da capacidade máxima constante, gerando muito calor. Quase toda a electricidade que entra nestas máquinas transforma-se instantaneamente em calor, exigindo sistemas de arrefecimento colossais.
É por isso que, hoje, dizer que um data center tem “100 megawatts” é a forma mais realista de descrever a capacidade da instalação. Para se ter uma ideia, essa potência seria suficiente para iluminar cerca de 100 mil casas. Estamos, literalmente, a queimar electricidade para produzir pensamento artificial. E também é por isto que muitos destes centros de dados são instalados junto a grandes centrais de produção de energia eléctrica, incluindo parques solares.
O que acontece ao meu prompt?
O que acontece, então, na fracção de segundo entre o momento em que carrega no Enter e a resposta aparecer? O processo é complexo.
Primeiro, a sua frase de comando (o prompt) é convertida em números. O computador não entende letras, por isso transforma o texto em “tokens” — pedaços de palavras que são convertidos em listas de números (vectores). Estes números representam o significado e o contexto do que escreveu.
Em seguida, estes números viajam através da rede neuronal do modelo. Imagine uma máquina de pinball gigante com milhões de obstáculos. À medida que os números batem nestes obstáculos (os parâmetros do modelo), são transformados e influenciados por tudo o que o modelo aprendeu durante o treino. O sistema analisa o contexto: se escreveu “banco”, ele tenta deduzir, pelas outras palavras, se fala de um jardim ou de dinheiro.
No final deste percurso, o modelo não devolve uma resposta completa de imediato. Ele calcula a probabilidade da primeira palavra da resposta. Depois de escolher essa palavra, volta a correr todo o processo, agora incluindo a nova palavra, para calcular a segunda. E assim sucessivamente, num ciclo frenético, até completar a frase. É por isso que vemos o texto a aparecer palavra a palavra no ecrã.
A IA que desenha também usa palavras?
Muitos utilizadores perguntam-se se as ferramentas que criam imagens, como o Nano Banana ou o DALL-E, funcionam da mesma forma. A resposta é “sim e não”.
Para gerar uma imagem a partir de texto, é necessário casar duas tecnologias diferentes: uma que sabe ler e outra que sabe ver.
O processo começa, de facto, com um modelo de linguagem semelhante aos que descrevemos anteriormente. Quando é inserido um pedido como “um astronauta a andar a cavalo em Marte”, o sistema tem primeiro de traduzir estas palavras para conceitos matemáticos. Esta parte do “cérebro” da IA actua como um intérprete, convertendo a frase numa lista de vectores numéricos que representam o significado visual de “astronauta”, “cavalo” e “Marte”.
No entanto, a criação da imagem propriamente dita usa uma tecnologia distinta denominada “modelos de difusão”. Para entender como funciona, é preciso esquecer a ideia de que o computador está a fazer uma colagem de fotos que encontrou na internet. O algoritmo não está a recortar e colar. Pelo contrário, está a esculpir a partir do caos.
Imagine uma televisão antiga sintonizada num canal sem sinal, exibindo aquele “chuvisco” ou estática a preto e branco (o que tecnicamente chamamos de ruído). O ecrã está cheio de pontos aleatórios. O segredo destes modelos de IA reside no facto de terem sido treinadas a reverter esse ruído.
Durante a fase de aprendizagem, os engenheiros pegaram em milhões de imagens nítidas (por exemplo, a foto de um gato) e foram adicionando ruído digital progressivamente, até a imagem se tornar irreconhecível, transformando-se em pura estática. A IA observou este processo de destruição milhões de vezes e aprendeu a regra matemática para o fazer ao contrário. Aprendeu a olhar para um amontoado de pontos cinzentos e a “limpar” o ruído para reconstruir a imagem original, ou melhor, a imagem pedida.
Portanto, quando pedimos ao DALL-E para desenhar o tal astronauta, o sistema começa com um quadrado cheio de ruído aleatório — uma tela de estática digital. Depois, guiado pelos conceitos matemáticos do texto que o utilizador escreveu, começa um processo de refinamento progressivo. O sistema olha para o caos e pergunta: “se eu alterar ligeiramente este grupo de píxeis, fica mais parecido com um astronauta?”. E faz a alteração.
Este passo repete-se dezenas ou centenas de vezes numa questão de segundos. Em cada passagem, o modelo remove um pouco mais do ruído e acrescenta detalhes que coincidem com a descrição pedida. O que começa como uma mancha cinzenta e disforme vai ganhando contornos, cores, sombras e texturas, até que emerge uma imagem nítida e totalmente nova. É, no fundo, uma alucinação controlada pela matemática: a máquina está a ver formas nas nuvens, mas tem a capacidade de tornar essas nuvens reais.
É “só matemática”
Seja a escrever um poema ou a pintar um quadro digital, o princípio mantém-se: estas máquinas não têm consciência, sentimentos ou intenções. Procuram ser espelhos matemáticos do conhecimento humano, reflectindo o que lhes mostrámos, com uma capacidade de cálculo que, para todos os efeitos práticos, parece indistinguível do nosso raciocínio. Mas não é, longe disso!

