Primeiras impressões do Gemini Reside: melhor do que falar com a Siri, mas pior do que eu gostaria

OpenAI lança modo de voz avançado e não, não vai soar como ScarJo

O Google lançou o Gemini Reside durante seu evento Made By Google em Mountain View, Califórnia, na terça-feira. O recurso permite que você tenha uma conversa falada seminatural, não digitada, com um chatbot de IA alimentado pelo mais recente modelo de linguagem grande do Google. O TechCrunch estava lá para testá-lo em primeira mão.

Gemini Reside é a resposta do Google ao Superior Voice Mode do OpenAI, um recurso quase idêntico do ChatGPT que está atualmente em um teste alfa limitado. Enquanto o OpenAI venceu o Google ao demonstrar o recurso primeiro, o Google é o primeiro a lançar o recurso finalizado.

Na minha experiência, esses recursos verbais de baixa latência fazem com que usar um LLM pareça muito mais pure do que enviar mensagens de texto com o ChatGPT, ou mesmo falar com Siri ou Alexa. Descobri que o Gemini Reside respondeu às perguntas em menos de dois segundos e conseguiu mudar de posição bem rápido quando interrompido. O Gemini Reside não é perfeito, mas é a melhor maneira de usar seu telefone com as mãos livres que já vi.

Como funciona

Antes de falar com o Gemini Reside, o recurso permite que você escolha entre 10 vozes, em comparação com apenas três vozes do OpenAI. O Google trabalhou com dubladores para criar cada uma. Gostei da variedade ali, e achei que cada uma soava muito humana.

Em um exemplo, um gerente de produto do Google pediu verbalmente à Gemini Reside para encontrar vinícolas para famílias perto de Mountain View com áreas ao ar livre e playgrounds por perto, para que as crianças pudessem vir. Essa é uma tarefa muito mais complicada do que eu pediria à Siri — ou ao Google Search, francamente —, mas a Gemini recomendou com sucesso um native que atendia aos critérios: Cooper-Garrod Vineyards em Saratoga.

Dito isso, Gemini Reside deixa algo a desejar. Parecia alucinar um playground próximo chamado Henry Elementary College Playground que supostamente fica a “10 minutos de distância” daquele vinhedo. Há outros playgrounds próximos em Saratoga, mas a Henry Elementary College mais próxima fica a mais de duas horas de carro de lá. Há uma Henry Ford Elementary College em Redwood Metropolis, mas fica a 30 minutos de distância.

O Google gostava de mostrar como os usuários podem interromper o Gemini Reside no meio da frase, e a IA rapidamente muda. A empresa diz que isso permite que os usuários controlem a conversa. Na prática, esse recurso não funciona perfeitamente. Às vezes, os gerentes de projeto do Google e o Gemini Reside estavam falando um sobre o outro, e a IA parecia não entender o que period dito.

Notavelmente, o Google não está permitindo que o Gemini Reside cante ou imite nenhuma voz fora das 10 que ele fornece, de acordo com o gerente de produto Leland Rechis. A empresa provavelmente está fazendo isso para evitar problemas com a lei de direitos autorais. Além disso, Rechis disse que o Google não está focado em fazer o Gemini Reside entender a entonação emocional na voz de um usuário – algo que a OpenAI apregoou durante sua demonstração.

No geral, o recurso parece uma ótima maneira de mergulhar profundamente em um assunto de forma mais pure do que você faria com a simples Pesquisa Google. O Google observa que o Gemini Reside é um passo no caminho para o Projeto Astra, o modelo de IA totalmente multimodal que a empresa estreou durante o Google I/O. Por enquanto, o Gemini Reside é capaz apenas de conversas por voz, no entanto, no futuro, o Google quer adicionar compreensão de vídeo em tempo actual.

Source link

Related Articles

Responses

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *