Poucos são os países europeus em que o desenvolvimento de grandes modelos de linguagem, à imagem do popular ChatGPT, não está em marcha ou já incorporado pelos governos nacionais. Ainda antes do anúncio do Amália, o “ChatGPT português”, outros líderes europeus lançaram o mote: preservar a língua e a cultura através destes modelos de inteligência artificial. No total, mais de metade dos países (cerca de 60%) da União Europeia criaram ou planearam avançar com as suas versões.
Nem todos os modelos têm, no entanto, um impulso governamental. Esta é uma montra apenas para cinco países na União Europeia: Dinamarca, Espanha, Países Baixos, Portugal e Suécia. A Grécia também já aplicou um grande modelo de linguagem na administração pública, mas esse modelo foi desenvolvido por uma empresa com base no GPT-4 (o modelo na base do ChatGPT).
As contas do PÚBLICO avaliam os países que, através dos governos, de empresas ou do meio académico, já lançaram ou anunciaram o avanço de grandes modelos de linguagem nas suas línguas oficiais – na União Europeia, há 24 línguas oficiais. Entre os 27 Estados-membros, pelo menos 16 já o fizeram (59,2% dos 27 países). A este investimento nacional, junta-se também a verba de 200 mil milhões da Comissão Europeia (150 mil milhões vindos de empresas) para aplicar em inteligência artificial.
Há, ainda assim, outras estratégias. O caso da Lituânia é paradigmático. O Governo lituano investirá cerca de 12 milhões de euros para criar uma base de dados de texto em lituano que servirá para treinar outros modelos de linguagem que sejam criados – no fundo, faz a curadoria da informação com que um modelo é treinado. Além disso, o investimento permitirá criar bases de dados aplicadas ao campo da medicina e também para criar marcadores de identificação de informação falsa.
A veia empresarial será, ainda assim, a mais relevante no panorama europeu. A começar pela Mistral, a startup francesa fundada em 2023 que compete com os gigantes norte-americanos e chineses com o seu modelo de linguagem. A empresa tem sido exultada pelo Governo francês – que agora conta com uma ministra para a inteligência artificial, Clara Chappaz – e já forjou uma parceria com a gigante Microsoft.
Para as línguas bálticas e da Europa de Leste, a empresa letã Tilde está a construir um modelo de linguagem que será fluente em 14 línguas, para além do inglês, francês, alemão e russo – um projecto financiado pela Comissão Europeia. Na República Checa, a empresa Semant também criou o CSMPT-7B, um modelo de linguagem fluente em checo, e em Itália já foram anunciados planos para um “ChatGPT italiano” por empresas e academia – com apoio do Governo. Do lado académico, também há muitas experiências por toda a Europa, como o Povejmo (da Eslovénia), mas a maioria é trabalhado em cima de modelos de linguagem bem conhecidos, como os da Google ou da OpenAI, por exemplo.
Entre as experiências já em curso, nem tudo correu bem. Por exemplo, a empresa alemã Aleph Alpha também tentou criar um modelo fundacional, ou seja, sem ser construído num modelo já existente, mas os resultados não foram suficientemente bons – e a empresa mudou de rumo.
Há ainda apostas em modelos abrangentes, como o EuroLLM ou o Open Euro LLM, ambos multilingues e com o intuito de interpretar e gerar texto em todas as 24 línguas da União Europeia. O EuroLLM é um produto da empresa portuguesa Unbabel, em conjunto com nove parceiros académicos (entre os quais o Instituto Superior Técnico da Universidade de Lisboa e o Instituto de Telecomunicações) e que deverá ser utilizado no desenvolvimento do Amália.