Uma nova “interface de voz empática” lançada hoje pela Hume IAuma startup sediada em Nova York, torna possível adicionar uma gama de vozes emocionalmente expressivas, além de um ouvido emocionalmente sintonizado, a grandes modelos de linguagem da Anthropic, Google, Meta, Mistral e OpenAI — prenunciando uma period em que os ajudantes de IA podem rotineiramente ficar todos efusivos conosco.
“Nós nos especializamos em construir personalidades empáticas que falam de maneiras que as pessoas falariam, em vez de estereótipos de assistentes de IA”, diz o cofundador da Hume AI Alan Cowenum psicólogo que foi coautor de uma série de artigos de pesquisa sobre IA e emoção, e que trabalhou anteriormente com tecnologias emocionais no Google e no Fb.
A WIRED testou a mais recente tecnologia de voz da Hume, chamada EVI 2, e descobriu que sua saída period semelhante à desenvolvida pela OpenAI para o ChatGPT. (Quando a OpenAI deu ao ChatGPT uma voz sedutora em maio, o CEO da empresa, Sam Altman, elogiou a interface como sendo “como a IA dos filmes.” Mais tarde, uma verdadeira estrela de cinema, Scarlett Johansson, afirmou que a OpenAI havia roubado sua voz.)
Assim como o ChatGPT, o Hume é muito mais expressivo emocionalmente do que a maioria das interfaces de voz convencionais. Se você disser a ele que seu animal de estimação morreu, por exemplo, ele adotará um tom sombrio e simpático adequado. (Além disso, assim como no ChatGPT, você pode interromper o Hume no meio do fluxo, e ele pausará e se adaptará com uma nova resposta.)
A OpenAI não disse o quanto sua interface de voz tenta medir as emoções dos usuários, mas a do Hume é expressamente projetada para fazer isso. Durante as interações, a interface do desenvolvedor do Hume mostrará valores indicando uma medida de coisas como “determinação”, “ansiedade” e “felicidade” na voz dos usuários. Se você falar com Hume com um tom triste, ele também perceberá isso, algo que o ChatGPT parece não fazer.
Hume também facilita a implantação de uma voz com emoções específicas adicionando um immediate em sua IU. Aqui está quando pedi para ser “horny e flertador”:
E quando lhe disseram para ficar “triste e taciturno”:
E aqui está a mensagem particularmente desagradável quando solicitado a ser “raivoso e impolite”:
A tecnologia nem sempre pareceu tão polido e suave como o OpenAI, e ocasionalmente se comportava de maneiras estranhas. Por exemplo, em um ponto a voz de repente acelerou e vomitou algo sem sentido. Mas se a voz puder ser refinada e se tornar mais confiável, ela tem o potencial de ajudar a tornar as interfaces de voz semelhantes às humanas mais comuns e variadas.
A ideia de reconhecer, medir e simular emoções humanas em sistemas tecnológicos remonta a décadas e é estudada em um campo conhecido como “computação afetiva”, um termo introduzido por Rosalind Picardprofessor do MIT Media Lab, na década de 1990.
Alberto Salahum professor da Universidade de Utrecht, na Holanda, que estuda computação afetiva, está impressionado com a tecnologia da Hume AI e recentemente a demonstrou para seus alunos. “O que a EVI parece estar fazendo é atribuir valência emocional e valores de excitação [to the user]e então modulando a fala do agente de acordo”, ele diz. “É uma reviravolta muito interessante nos LLMs.”