Gemini Stay, a resposta do Google ao recém-lançado (em alfa limitado) Superior Voice Mode para o ChatGPT da OpenAI, será lançado na terça-feira, meses após ser anunciado na conferência de desenvolvedores I/O 2024 do Google. Foi anunciado no evento Made by Google 2024 do Google.
O Gemini Stay permite que os usuários tenham chats de voz “em profundidade” com o Gemini, o chatbot generativo com IA do Google, em seus smartphones. Graças a um mecanismo de fala aprimorado que oferece o que o Google afirma ser um diálogo multi-turno mais consistente, emocionalmente expressivo e realista, as pessoas podem interromper o Gemini enquanto o chatbot está falando para fazer perguntas de acompanhamento, e ele se adaptará aos seus padrões de fala em tempo actual.
Veja como o Google descreve isso em uma postagem de weblog: “Com o Gemini Stay [via the Gemini app]você pode falar com Gemini e escolher entre [10 new] vozes naturais com as quais ele pode responder. Você pode até falar no seu próprio ritmo ou interromper no meio da resposta com perguntas esclarecedoras, assim como faria em qualquer conversa.”
O Gemini Stay é viva-voz se você quiser. Você pode continuar falando com o aplicativo Gemini em segundo plano ou quando seu telefone estiver bloqueado, e as conversas podem ser pausadas e retomadas a qualquer momento.
Então, como isso pode ser útil? O Google dá o exemplo de ensaio para uma entrevista de emprego — um pouco de cenário irônicomas OK. O Gemini Stay pode praticar com você, diz o Google, dando dicas de conversação e sugerindo habilidades para destacar ao falar com um gerente de contratação (ou IA, conforme o caso).
Uma vantagem Gemini Stay poder ter sobre o Modo de Voz Avançado do ChatGPT é uma memória melhor. A arquitetura do modelo de IA generativa que sustenta o Stay, Gemini 1.5 Professional e Gemini 1.5 Flash, tem uma “janela de contexto” maior do que a média, o que significa que eles podem absorver e raciocinar sobre muitos dados — teoricamente horas de conversas de ida e volta — antes de elaborar uma resposta.
“O Stay usa nossos modelos Gemini Superior que adaptamos para serem mais conversacionais”, disse um porta-voz do Google ao TechCrunch por e-mail. “A grande janela de contexto do modelo é utilizada quando os usuários têm longas conversas com o Stay.”
Teremos que ver o quão bem tudo isso funciona na prática, é claro. Se os contratempos da OpenAI com o Superior Voice Mode são alguma indicação, raramente as demonstrações são traduzidas perfeitamente para o mundo actual.
Sobre esse assunto, Gemini Stay não tem um dos recursos que o Google demonstrou no I/O até agora: entrada multimodal. Em maio, o Google lançou vídeos pré-gravados mostrando o Gemini Stay vendo e respondendo aos arredores dos usuários por meio de fotos e filmagens capturadas pelas câmeras de seus telefones — por exemplo, nomeando uma parte de uma bicicleta quebrada ou explicando o que uma parte do código na tela do computador faz.
A entrada multimodal chegará “mais tarde neste ano”, disse o Google, recusando-se a fornecer detalhes. Também mais tarde neste ano, o Stay se expandirá para idiomas adicionais e para iOS por meio do aplicativo do Google; ele está disponível apenas em inglês por enquanto.
O Gemini Stay, assim como o Superior Voice Mode, não é gratuito. Ele é exclusivo do Gemini Superior, uma versão mais sofisticada do Gemini que é protegida por trás do Google One AI Premium Plan, com preço de US$ 20 por mês.
Outros novos recursos do Gemini que estão por vir são gratuitos.
Em breve (nas próximas semanas), os usuários do Android poderão colocar a sobreposição do Gemini em cima de qualquer aplicativo que estejam usando para fazer perguntas sobre o que está na tela (por exemplo, um vídeo do YouTube) segurando o botão de energia do telefone ou dizendo “Okay Google”. O Gemini poderá gerar imagens (mas ainda não imagens de pessoas, infelizmente) diretamente da sobreposição — imagens que podem ser arrastadas e soltas em aplicativos como Gmail e Google Messages.
Gemini também está ganhando novas integrações com serviços do Google (ou “extensões”, como a empresa prefere chamá-los) tanto no celular quanto na internet. Nas próximas semanas, Gemini poderá realizar mais ações com o Google Agenda, Hold, Tarefas, YouTube Music e Utilitários, os aplicativos que controlam recursos no dispositivo como temporizadores e alarmes, controles de mídia, lanterna, quantity, Wi-Fi, Bluetooth e assim por diante.
Em uma postagem de weblog, o Google dá algumas ideias de como as pessoas podem tirar vantagem. Parece bacana, assumindo que tudo funcione de forma confiável:
- Peça para Gêmeos “fazer uma playlist de músicas que me lembrem do remaining dos anos 90”.
- Tire uma foto de um folheto de present e pergunte ao Gemini se você está livre naquele dia — e até mesmo defina um lembrete para comprar ingressos.
- Peça para o Gemini pegar uma receita no Gmail e pedir para ele adicionar os ingredientes à sua lista de compras no Hold.
Por fim, a partir do remaining desta semana, o Gemini estará disponível para tablets Android.