Nos últimos anos, a tecnologia de conversão de texto em voz deu passos significativos para melhorar a nossa vida quotidiana, desde assistentes virtuais como a Siri e a Alexa a livros eletrónicos que leem em voz alta. No entanto, ainda há espaço para melhorias neste campo, e a Amazon lidera o caminho com o seu novo modelo BASE TTS, considerado o maior do mundo.

Os modelos text-to-speech (TTS) são utilizados no desenvolvimento de assistentes de voz para dispositivos inteligentes e são empregues para converter texto escrito em palavras faladas, permitindo que os assistentes de voz comuniquem com os utilizadores de uma forma natural e humana.

Além disso, os modelos TTS produzem resultados que se assemelham muito ao discurso natural, incorporando elementos como a entoação, a ênfase e a inflexão. Esta naturalidade melhora a experiência dos utilizadores e torna as interações com os assistentes de voz mais intuitivas e envolventes.

Mais de 980 milhões de parâmetros

A equipa de especialistas em IA da Amazon AGI detalhou o seu feito inovador num artigo publicado no servidor de pré-impressão arXiv. O modelo BASE TTS da Amazon tem 980 milhões de parâmetros, o que o torna o maior modelo na categoria TTS, afirmam os investigadores.

O documento afirma que o que distingue o BASE TTS não é apenas o seu número impressionante de parâmetros, mas também o extenso conjunto de dados de treino que utiliza. O modelo foi treinado em 100 mil horas de discurso gravado proveniente de sites públicos.

Além disso, os investigadores enriqueceram o seu repertório através da incorporação de exemplos de palavras e frases faladas de várias línguas, permitindo-lhe navegar sem problemas por nuances linguísticas e pronúncias. Também publicaram exemplos dos discursos produzidos pelo modelo aqui.

Embora os modelos de linguagem de grande dimensão (LLM), como o ChatGPT da OpenAI, tenham atraído a atenção pela sua notável capacidade de participar em conversas inteligentes e gerar textos sofisticados, a integração da IA em aplicações correntes, como a conversão de texto em voz, continua a ser um ponto fulcral para os investigadores.

Tornar a IA mais inteligente é uma tarefa complicada

Crucialmente, a equipa realizou testes para ver o surgimento do que se tornou conhecido como uma "qualidade emergente" no domínio da IA. Tentaram utilizar diferentes quantidades de dados para o treinar. Descobriram que, quando o seu modelo TTS tinha 150 milhões de parâmetros, ficou subitamente muito melhor a compreender e a falar a língua. Isto mostra que tornar a IA mais inteligente é uma tarefa bastante complicada.

O aspeto especial do BASE TTS, explicaram os investigadores, é que pode utilizar palavras complexas, mostrar emoções, utilizar corretamente a pontuação e fazer perguntas de uma forma inteligente.

A equipa da Amazon AGI optou por não divulgar o modelo ao público por questões éticas. Consciente do potencial uso indevido de uma tecnologia tão poderosa, a equipa reservou o BASE TTS para uso interno como ferramenta de aprendizagem.

