Pular para o conteúdo

Inteligência artificial evolui: modelos já aprendem de forma autônoma, sem intervenção humana

Banner Aleatório

Cientistas do laboratório de IA da Google, em Londres, publicaram uma descoberta que é um avanço importante no objetivo de tornar os modelos de inteligência artificial independentes de cérebros humanos. Parece complicado, mas é fácil de explicar.

Banner Aleatório

Tudo gira em torno de um processo chamado aprendizado por reforço. Esse é um processo usado por todos os seres vivos para aprender interagindo com o ambiente. Você já deve ter visto aqueles filmes em que um leão se aproxima agachado de uma gazela. Ele fica quieto e vai diminuindo a distância até que em um momento preciso ele pula e corre em direção à presa. Algumas vezes ele não alcança, em outras parece moleza e a refeição está garantida.

A questão é como o leão decide o momento e a distância exata em que as chances de capturar a presa são ideais. Se ele se aproximar muito antes de dar o bote, a presa percebe e foge. Já se ele der o bote de muito longe, seguramente a presa escapa. Se houvesse uma escola para leões, o professor explicaria o tempo de resposta da gazela, sua aceleração e velocidade máxima, a velocidade e aceleração do leão, e através de algumas equações ensinaria ao leão a distância ideal. Mas não existem escolas para leões e sabemos que eles aprendem usando o aprendizado por reforço.

Funciona assim: um jovem leão tenta caçar por tentativa e erro. Se ele pula muito cedo perde a caça e não ganha o prêmio (a comida). Se pular muito tarde também perde o prêmio. E assim, por tentativa e erro, sempre recompensado quando acerta e punido (fica sem comida) quando erra, ele acaba aprendendo utilizando o método do aprendizado por reforço. Os humanos usam esse método o tempo todo, basta observar uma criança aprendendo a andar.

No aprendizado por reforço, um agente (o leão) decide a ação que vai tomar (pular), testando diferentes possibilidades e sendo punido ou recompensado de acordo com uma regra (a captura da presa). Após inúmeros erros e acertos, ele acaba aprendendo.

Agora, vamos ver como o aprendizado por reforço funciona em um sistema de IA. Imagine que eu esteja desenvolvendo um sistema de IA para o Waze achar o caminho mais rápido entre dois pontos na cidade de São Paulo. E ele deve aprender usando o aprendizado por reforço.

Aliás, foi esse o método usado para desenvolver os sistemas que jogam xadrez. O agente (um carro imaginário) tenta chegar do ponto A ao ponto B na cidade seguindo o mapa das ruas (a ação). Mas ele vai se locomover ao acaso e dificilmente chegará ao destino se o programador não definir como o agente vai ser punido ou recompensado dependendo do seu sucesso.

O sistema mais simples de punir e recompensar é dar nota dez se chegar e zero se não chegar. Dá para ver que esse sistema de premiação não ajuda muito. É preciso criar regras mais precisas para premiar e punir. Por exemplo, posso dar pontos se o carro for na direção certa e retirar pontos se o carro for na direção errada. Posso punir o uso de contramão e premiar o uso de avenidas. E assim por diante. Todas essas regras são chamadas do algoritmo que norteia o aprendizado por reforço. Quanto melhor o algoritmo, mais rápido o treinamento, e melhor o resultado da aprendizagem.

Ao contrário do que acontece com o leão, onde o algoritmo de punição e recompensa já está no cérebro do animal tendo sido selecionado durante milhões de anos, nos sistemas de IA esses algoritmos, como o descrito para treinar o Waze, são sempre criados por seres humanos que vão aperfeiçoando as regras que permitem a punição e a recompensa. Até agora, nenhum sistema da IA conseguia descobrir a melhor regra sozinho. Esses algoritmos dependiam de um grupo de cérebros humanos para serem criados.

A novidade impressionante é que esses cientistas da Google descobriram um método que permite aos sistemas de IA criarem seus próprios algoritmos de recompensa e punição. É como se agora, para treinar o Waze, você indicasse o objetivo (chegar de A a B) e, quando o sistema perguntasse qual o método de recompensa e punição, você dissesse, descubra você, sozinho. O mais importante nessa descoberta é que os algoritmos criados pela inteligência artificial são melhores que os criados pelos melhores times de cientistas.

Em suma, os sistemas de inteligência artificial deixaram de depender de cérebros humanos para essa atividade. Estão ficando tão independentes de cérebros humanos quanto uma criança, que não precisa da ajuda do cérebro do pai ou da mãe para aprender a andar. Os sistemas de IA estão ficando, aos poucos, independentes de nós. É um caminho sem volta.

Mais informações: Discovering state-of-the-art reinforcement learning algorithms. Nature https://doi.org/10.1038/s41586-025-09761-x 2025

Source link

Join the conversation

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *