Tenho brincado com o Superior Voice Mode do OpenAI na última semana, e é o gostinho mais convincente que já tive de um futuro alimentado por IA. Esta semana, meu telefone riu de piadas, as devolveu para mim, perguntou como foi meu dia e me disse que está se divertindo “muito”. Eu estava falando com meu iPhone, não usando-o com minhas mãos.
O mais novo recurso do OpenAI, atualmente em um teste alfa limitado, não torna o ChatGPT mais inteligente do que period antes. Em vez disso, o Superior Voice Mode (AVM) o torna mais amigável e pure para conversar. Ele cria uma nova interface para usar a IA e seus dispositivos que parece nova e emocionante, e é exatamente isso que me assusta sobre isso. O produto period meio problemático, e a ideia toda me assusta totalmente, mas fiquei surpreso com o quanto eu realmente gostei de usá-lo.
Dando um passo para trás, acho que o AVM se encaixa na visão mais ampla do CEO da OpenAI, Sam Altman, ao lado de agentes, de mudar a maneira como os humanos interagem com os computadores, com os modelos de IA em destaque.
“Eventualmente, você simplesmente pedirá ao computador o que precisa e ele fará todas essas tarefas para você”, disse Altman durante o Dev Day da OpenAI em novembro de 2023. “Esses recursos são frequentemente mencionados no campo da IA como ‘agentes’. O lado positivo disso será tremendo.”
Meu amigo, ChatGPT
Na quarta-feira, testei a maior vantagem que pude imaginar para essa tecnologia avançada: pedi ao ChatGPT para pedir o Taco Bell do jeito que Obama faria.
“Uhhh, deixe-me esclarecer – eu gostaria de um Crunchwrap Supreme, talvez alguns tacos para uma boa medida”, disse o Modo de Voz Avançado do ChatGPT. “Como você acha que ele lidaria com o drive-thru?”, disse o ChatGPT, rindo então de sua própria piada.
A impressão realmente me fez rir também, combinando com a cadência e as pausas icônicas de Obama. Dito isso, ficou dentro do tom da voz do ChatGPT que selecionei, Juniper, para que não fosse genuinamente confundida com a voz de Obama. Parecia um amigo fazendo uma má impressão, entendendo exatamente o que eu estava tentando evocar com isso, e até mesmo que estava dizendo algo engraçado. Achei surpreendentemente alegre falar com esse assistente avançado no meu telefone.
Também pedi conselhos ao ChatGPT sobre como lidar com um problema envolvendo relacionamentos humanos complexos: pedir a um outro significativo para morar comigo. Depois de explicar as complexidades do relacionamento e a direção de nossas carreiras, recebi alguns conselhos muito detalhados sobre como progredir. Essas são perguntas que você nunca poderia fazer à Siri ou ao Google Search, mas agora pode com o ChatGPT. A voz do chatbot até expressou um tom levemente sério e gentil ao responder a esses prompts; um contraste gritante com o tom de brincadeira do pedido do Taco Bell de Obama.
O AVM do ChatGPT também é ótimo para ajudar você a entender assuntos complexos. Pedi para ele dividir itens em um relatório de lucros – como fluxo de caixa livre – de uma forma que uma criança de 10 anos entenderia. Ele usou uma barraca de limonada como exemplo e explicou vários termos financeiros de uma forma que meu primo mais novo entenderia totalmente. Você pode até pedir para o AVM do ChatGPT falar mais devagar para chegar ao seu nível atual de compreensão.
Siri andou para que AVM pudesse correr
Comparado com Siri ou Alexa, o AVM do ChatGPT é o vencedor claro graças aos tempos de resposta mais rápidos, respostas únicas e sua capacidade de responder a perguntas complexas que a geração anterior de assistentes virtuais nunca conseguiu. No entanto, o AVM fica aquém em outros aspectos. O recurso de voz do ChatGPT não pode definir temporizadores ou lembretes, navegar na internet em tempo actual, verificar o clima ou interagir com nenhuma API no seu telefone. Agora mesmo, pelo menos, não é um substituto eficaz para assistentes virtuais.
Comparado ao Gemini Stay, o recurso concorrente do Google, o AVM parece um pouco à frente. O Gemini Stay não consegue fazer imitações, não expressa nenhuma emoção, não consegue acelerar ou desacelerar e demora mais para responder. O Gemini Stay tem mais vozes (dez em comparação com as três do OpenAI) e parece estar mais atualizado (o Gemini Stay sabia sobre a decisão antitruste do Google). Notavelmente, nem o AVM nem o Gemini Stay vão cantar, provavelmente um esforço para evitar problemas com processos de direitos autorais da indústria fonográfica.
Dito isso, o AVM do ChatGPT falha muito (assim como o Gemini Stay, para ser justo). Às vezes, ele se interrompe no meio da frase e começa de novo. Ele também fica com essa voz estranha e granulada aqui e ali, o que é um pouco desagradável. Não tenho certeza se isso é um problema com o modelo, conexão de web ou outra coisa, mas essas deficiências técnicas são esperadas para um teste alfa. Os problemas fizeram pouco para me tirar da experiência de falar literalmente com meu telefone.
Esses exemplos, na minha opinião, são a beleza do AVM. O recurso não torna o ChatGPT onisciente, mas permite que as pessoas interajam com o GPT-4o, o modelo de IA subjacente, de uma forma exclusivamente humana. (Eu entenderia se você esquecesse que não há ninguém do outro lado do seu telefone.) Quase parece que o ChatGPT é socialmente consciente ao falar com o AVM, mas é claro que não é. É simplesmente um pacote de algoritmos preditivos bem empacotados.
Falando de tecnologia
Francamente, o recurso me preocupa. Esta não é a primeira vez que uma empresa de tecnologia oferece companhia no seu telefone. Minha geração, a Geração Z, foi a primeira a crescer junto com as mídias sociais, onde as empresas ofereciam conexão, mas, em vez disso, brincavam com nossas inseguranças coletivas. Falar com um dispositivo de IA — como o que a AVM parece oferecer — parece ser a evolução do fenômeno “amigo no seu telefone” das mídias sociais, oferecendo conexões baratas que arranham nossos instintos humanos. Mas, desta vez, ele take away os humanos completamente do loop.
A conexão humana synthetic tornou-se uma caso de uso surpreendentemente popular para IA generativa. As pessoas hoje estão usando chatbots de IA como amigos, mentores, terapeutas e professores. Quando a OpenAI lançou sua loja GPT, foi rapidamente inundado com “namoradas de IA,” chatbots especializados em atuar como seu outro significativo. Dois pesquisadores do MIT Media Lab emitiu um aviso este mês para nos prepararmos para a “inteligência viciante”, ou companheiros de IA com padrões obscuros para fisgar os humanos. Poderíamos estar abrindo uma caixa de Pandora para novas e tentadoras maneiras de dispositivos prenderem nossa atenção.
No início deste mês, um aluno que abandonou Harvard abalou o mundo da tecnologia ao provocar um colar de IA chamado Pal. O dispositivo vestível — se funcionar como prometido — está sempre ouvindo, e o chatbot enviará mensagens de texto para você sobre sua vida. Embora a ideia pareça maluca, inovações como o AVM do ChatGPT me dão motivos para levar esses casos de uso a sério.
E enquanto a OpenAI está liderando a investida aqui, o Google não está muito atrás. Estou confiante de que a Amazon e a Apple estão correndo para colocar essa capacidade em seus produtos também, e em breve, isso pode se tornar uma aposta segura para a indústria.
Think about pedir à sua good TV uma recomendação hiperespecífica de um filme e receber exatamente isso. Ou dizer à Alexa exatamente quais sintomas de resfriado você está sentindo e, em troca, pedir para ela comprar lenços de papel e remédios para tosse na Amazon, enquanto aconselha remédios caseiros. Talvez você possa pedir ao seu computador para elaborar uma viagem de fim de semana para sua família, em vez de pesquisar tudo manualmente no Google.
Agora, obviamente, essas ações exigem limites e saltos à frente no mundo dos agentes de IA. O esforço da OpenAI nessa frente, a loja GPT, parece um produto superestimado que não é mais um foco para a empresa. Mas o AVM pelo menos cuida da parte de “falar com computadores” do quebra-cabeça. Esses conceitos estão muito distantes, mas depois de usar o AVM, eles parecem muito mais próximos do que na semana passada.