Pplware

A voz da IA da Google é já quase igual à voz humana

A Inteligência Artificial tem crescido e hoje encontramo-la em cada vez mais áreas, muitas delas sem que tenhamos consciência disso, em sistemas diversos e substituindo a presença humana sempre que possível.

Uma das áreas onde a IA é mais notória é na dos sistemas de comunicação com os utilizadores, onde a voz está cada vez mais natural. A Google parece ter dado um passo maior que todos os que trabalham nesta área e tem já na sua IA uma voz quase idêntica à humana.


Um artigo científico de um investigador da Google, que foi recentemente publicado com o título “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions”, mostrou que a gigante das pesquisas tem estado a desenvolver e melhorar a voz da sua inteligência artificial, tornando-a já quase igual à humana.

Uma voz que é confundida com a voz humana

O novo sistema de conversão de texto para voz (text-to-speech) é denominado Tacotron 2 e pode ser já comparado com o que temos do lado humano. A acompanhar o paper publicado foi lançado um site onde podemos ouvir frases do Tacotron 2, algumas delas comparando-se à de humanos, sem identificar qual é qual. Podem ouvir 2 exemplos abaixo.

“That girl did a video about Star Wars lipstick.”

https://pplware.sapo.pt/wp-content/uploads/2017/12/lipstick_gt.wav?_=1

https://pplware.sapo.pt/wp-content/uploads/2017/12/lipstick_gen.wav?_=2

“George Washington was the first President of the United States.”

https://pplware.sapo.pt/wp-content/uploads/2017/12/washington_gen.wav?_=3

https://pplware.sapo.pt/wp-content/uploads/2017/12/washington_gt.wav?_=4

Como funciona o Tacotron 2 da Google?

Nesses mesmos exemplos fornecidos podem ser ouvidas diferentes entoações usadas para representar semânticas diferentes, como nomes, verbos e outros elementos. É ainda apresentada a utilização de palavras que podem ser complexas de pronunciar, mesmo para humanos.

Para conseguir este feito, o Tacotron 2 usa 2 redes neuronais. Uma para criar uma representação visual de frequências áudio específicas e outra, chamada “WaveNet” para recriar estes dados visuais como som.

As limitações e o futuro do Tacotron 2

Por agora o Tacotron 2 tem apenas uma limitação. Apenas a voz feminina pode ser usada e em Inglês. Caso se pretenda introduzir outra voz, esta deverá ser treinada para chegar a este nível.

Ainda sem uma utilização direta, o Tacotron 2 deverá em breve passar a ser usado no Google Assistant, o assistente virtual da Google, uma parte muito importante dos seus serviços e da interação destes com os utilizadores.

Exit mobile version