Pular para o conteúdo

Google DeepMind dá aos robôs IA que podem executar tarefas complexas sem treinamento prévio

Banner Aleatório

O laboratório DeepMind do Google revelou dois novos modelos de IA que ajudarão os robôs a “executar uma gama maior de tarefas do mundo real do que nunca”. Gemini Robotics é um modelo de visão-linguagem-ação capaz de compreender novas situações sem treinamento prévio. E a empresa descreve o Gemini Robotics-ER como um modelo avançado que pode “entender nosso mundo complexo e dinâmico” e controlar os movimentos do robô.

Banner Aleatório

Fonte da imagem: Google DeepMind

O modelo da Gemini Robotics é baseado no Gemini 2.0, a versão mais recente do principal modelo de IA do Google. De acordo com Carolina Parada, líder de robótica do Google DeepMind, a Gemini Robotics “pega a compreensão multimodal do mundo da Gemini e a traz para o mundo real, adicionando ações físicas como uma nova modalidade”.

O novo modelo é particularmente forte em três áreas principais que o Google DeepMind diz serem necessárias para criar robôs realmente úteis: versatilidade, interatividade e destreza. Além de poder generalizar para novos cenários, a Gemini Robotics consegue interagir melhor com as pessoas e seu ambiente. O modelo é capaz de executar tarefas físicas muito precisas, como dobrar um pedaço de papel ou abrir uma garrafa.

google deepmind

«Embora tenhamos feito progresso em cada uma dessas áreas individualmente no passado, agora estamos entregando [dramaticamente] aumento de produtividade em todas as três áreas com um modelo”, disse Parada. “Isso nos permite criar robôs mais capazes, mais responsivos e mais resilientes às mudanças em seu ambiente.”

O modelo Gemini Robotics-ER foi projetado especificamente para roboticistas. Ele permite que especialistas se conectem a controladores de baixo nível existentes que controlam os movimentos do robô. Como Parada explicou usando o exemplo de preparar uma lancheira, há objetos na mesa, você precisa determinar onde cada coisa está, como abrir a lancheira, como pegar os objetos e onde colocá-los. É precisamente essa linha de raciocínio que a Gemini Robotics-ER segue.

google deepmind general

Os desenvolvedores prestaram muita atenção à segurança. O pesquisador do Google DeepMind, Vikas Sindhwani, descreveu como o laboratório usa uma “abordagem em camadas” na qual os modelos Gemini Robotics-ER “aprendem a avaliar se é seguro executar uma ação potencial em um determinado cenário”.

Além disso, o Google DeepMind desenvolveu uma série de benchmarks e estruturas para auxiliar ainda mais a pesquisa de segurança no setor de IA. Em particular, no ano passado, o laboratório introduziu a “Constituição do Robô” – um conjunto de regras inspiradas nas “Três Leis da Robótica” formuladas por Isaac Asimov em seu conto de 1942 “Dança de Roda”.

O Google DeepMind está atualmente trabalhando com a Apptronik para desenvolver a “próxima geração de robôs humanoides”. O laboratório também disponibilizou seu modelo Gemini Robotics-ER para “testadores confiáveis”, incluindo Agile Robots, Agility Robotics, Boston Dynamics e Enchanted Tools.

«Estamos completamente focados em criar inteligência que possa entender o mundo físico e agir nesse mundo físico”, disse Parada. “Estamos muito animados em usar isso em diversas versões e em muitas aplicações para nós.”

Lembre-se de que em setembro de 2024, pesquisadores do Google DeepMind demonstraram um método de aprendizado que permite que um robô execute certas ações que exigem destreza, como amarrar cadarços, pendurar camisas e até consertar outros robôs.



Source link

Join the conversation

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *