A Inteligência Artificial é, sem dúvida, uma das tecnologias do futuro e hoje em dia já podemos ver vários progressos a rumar nesse sentido. As grande tecnológicas mundiais já têm os seus próprios assistentes virtuais: Siri, Cortana, Google Assistant; e tentam conectar cada vez mais estas assistentes pessoais aos seus sistemas operativos, de modo a tornar esta tecnologia mais simples, necessária e orgânica.
O último passo neste sentido vem da Microsoft, mais precisamente da equipa de investigação em linguagem, reconhecimento da fala e diálogo, que anunciou ter atingido um marco histórico no reconhecimento de fala por parte dos seus sistemas virtuais.
Ao longo dos últimos 25 anos, a indústria tecnológica tem vindo a tentar atingir um nível de reconhecimento da fala idêntico ao humano nos seus sistemas. A Microsoft anunciou ter atingido um recorde nessa categoria, tendo atualmente uma margem de erro de 5,1% na identificação e reconhecimento da fala e discurso/diálogo.
Esta é uma melhoria de 12% face ao registo efetuado em 2016, que se situava nos 5,9% de margem de erro. No entanto, o que torna este progresso um marco histórico é o facto de este registo de 5,1% de margem de erro ser o padrão estabelecido numa conversa entre humanos. Ou seja, o reconhecimento da fala da Microsoft, neste momento, tem o mesmo grau de precisão de um humano!
Para conseguir estes resultados, a equipa da Microsoft Research aprimorou o conjunto de ferramentas que usava anteriormente, especialmente as suas redes acústicas com tecnologia neural.
Para além disto, adicionou novas tecnologias, entre as quais o CNN-BLSTM (convolutional neural network combined with bidireccional long-short-term memory) que melhorou consideravelmente a interpretação de discursos provenientes de diferentes timbres.
A Microsoft congratula-se de conseguir trazer, desta forma, melhorias para vários serviços que são usados diariamente por milhões de pessoas, entre os quais a Cortana, o Presentation Translator do PowerPoint e as API do seus Serviços Cognitivos.
Apesar de ter atingido um marco histórico na categoria, a Microsoft afirma que tem ainda muitos progressos a realizar nesta tecnologia, dos quais destaca atingir o nível de reconhecimento da fala humano em ambientes mais ruidosos, em reconhecer com mais precisão discursos provenientes de diferentes sotaques. Mais importante, a Microsoft quer que esta tecnologia consiga, para além de reconhecer e transcrever discursos, entender e interpretar o contexto e significado dos diálogos.
Pode ler mais sobre o assunto no relatório técnico que a Microsoft disponibilizou.