Estudantes universitários lançam IA de voz open-source que rivaliza com a Google e OpenAI
A tecnologia de geração de voz sintética com inteligência artificial (IA) está em expansão, com novas ferramentas a surgir diariamente. Neste cenário competitivo, destaca-se a iniciativa de dois estudantes universitários que desenvolveram um modelo de voz open-source com potencial para desafiar os da Google e da OpenAI.
A surpresa da Nari Labs no mercado de IA de voz
Dois estudantes universitários, apesar de admitirem não possuir vasta experiência prévia em IA, afirmam ter desenvolvido um modelo de IA open-source capaz de gerar áudio ao estilo de podcasts, apresentando-se como uma alternativa ao NotebookLM da Google.
O mercado de ferramentas de voz sintética encontra-se em rápido crescimento, com nomes como ElevenLabs a liderar, mas com uma concorrência crescente (PlayAI, Sesame, entre outros). Prova disso é o investimento significativo que estas tecnologias têm atraído: segundo a PitchBook, startups focadas em IA de voz arrecadaram mais de 398 milhões de dólares em capital de risco no ano passado.
Toby Kim, um dos cofundadores da Nari Labs (sediada na Coreia), explicou que ele e o seu colega iniciaram a sua aprendizagem sobre IA de voz há apenas três meses. Motivados pelo NotebookLM, o objetivo passou por criar um modelo que oferecesse maior controlo sobre as vozes geradas e mais "liberdade no guião".
Dia: o modelo de 1,6 mil milhões de parâmetros
Kim revelou que o treino do modelo da Nari, chamado de "Dia", foi realizado com recurso ao programa TPU Research Cloud da Google, que faculta acesso gratuito aos seus chips Tensor Processing Units (TPU) a investigadores.
Com 1,6 mil milhões de parâmetros - variáveis internas que os modelos utilizam para fazer previsões e que, geralmente, quanto maior o número, melhor o desempenho -, o Dia é capaz de gerar diálogos a partir de um guião. Permite ainda aos utilizadores personalizar o tom dos interlocutores e inserir hesitações, pausas, tosses, risos e outras pistas não-verbais.
O modelo Dia está disponível publicamente através do Hugging Face e do GitHub. Pode ser executado na maioria dos computadores pessoais modernos que disponham de, pelo menos, 10GB de VRAM. Por defeito, gera uma voz aleatória, a menos que seja fornecida uma descrição do estilo pretendido, mas possui também capacidade de clonagem de voz.
Our biggest blocker? Compute.
But Google came in clutch, giving us access to TPUs through their Research Cloud. Huge shoutout to TRC ❤️
— Toby Kim (@_doyeob_) April 21, 2025
Desempenho "promissor", mas com preocupações éticas
Num teste breve realizado através da demonstração web, o Dia demonstrou um desempenho bastante satisfatório, gerando conversas bidirecionais sobre qualquer tópico solicitado sem dificuldades aparentes.
Contudo, à semelhança de muitos geradores de voz, o Dia apresenta poucas salvaguardas contra utilizações indevidas. Seria extremamente fácil criar desinformação ou gravações fraudulentas com intenções maliciosas.
A Nari desencoraja o abuso do modelo para usurpação de identidade, engano ou outras campanhas ilícitas, mas o grupo afirma que "não se responsabiliza" pela má utilização por parte de terceiros.
Acresce a isto a falta de transparência sobre os dados utilizados para treinar o Dia. Existe a possibilidade de o modelo ter sido desenvolvido com base em conteúdos protegidos por direitos de autor - um comentador no Hacker News observou que uma das amostras sonoras se assemelha aos apresentadores do podcast "Planet Money" da National Public Radio.
O treino de modelos de IA com conteúdos protegidos é uma prática comum, mas legalmente controversa, com empresas de IA a invocarem o fair use e os detentores de direitos a contestarem essa aplicação no contexto do treino de algoritmos.
A Nari pretende publicar um relatório técnico detalhado sobre o Dia, fornecendo mais informações sobre a sua arquitetura e processo de treino, e expandir o suporte do modelo para incluir outros idiomas além do inglês.
Leia também: