Microsoft atinge marco histórico no reconhecimento da fala
A Inteligência Artificial é, sem dúvida, uma das tecnologias do futuro e hoje em dia já podemos ver vários progressos a rumar nesse sentido. As grande tecnológicas mundiais já têm os seus próprios assistentes virtuais: Siri, Cortana, Google Assistant; e tentam conectar cada vez mais estas assistentes pessoais aos seus sistemas operativos, de modo a tornar esta tecnologia mais simples, necessária e orgânica.
O último passo neste sentido vem da Microsoft, mais precisamente da equipa de investigação em linguagem, reconhecimento da fala e diálogo, que anunciou ter atingido um marco histórico no reconhecimento de fala por parte dos seus sistemas virtuais.
Ao longo dos últimos 25 anos, a indústria tecnológica tem vindo a tentar atingir um nível de reconhecimento da fala idêntico ao humano nos seus sistemas. A Microsoft anunciou ter atingido um recorde nessa categoria, tendo atualmente uma margem de erro de 5,1% na identificação e reconhecimento da fala e discurso/diálogo.
Esta é uma melhoria de 12% face ao registo efetuado em 2016, que se situava nos 5,9% de margem de erro. No entanto, o que torna este progresso um marco histórico é o facto de este registo de 5,1% de margem de erro ser o padrão estabelecido numa conversa entre humanos. Ou seja, o reconhecimento da fala da Microsoft, neste momento, tem o mesmo grau de precisão de um humano!
Para conseguir estes resultados, a equipa da Microsoft Research aprimorou o conjunto de ferramentas que usava anteriormente, especialmente as suas redes acústicas com tecnologia neural.
Para além disto, adicionou novas tecnologias, entre as quais o CNN-BLSTM (convolutional neural network combined with bidireccional long-short-term memory) que melhorou consideravelmente a interpretação de discursos provenientes de diferentes timbres.
A Microsoft congratula-se de conseguir trazer, desta forma, melhorias para vários serviços que são usados diariamente por milhões de pessoas, entre os quais a Cortana, o Presentation Translator do PowerPoint e as API do seus Serviços Cognitivos.
Apesar de ter atingido um marco histórico na categoria, a Microsoft afirma que tem ainda muitos progressos a realizar nesta tecnologia, dos quais destaca atingir o nível de reconhecimento da fala humano em ambientes mais ruidosos, em reconhecer com mais precisão discursos provenientes de diferentes sotaques. Mais importante, a Microsoft quer que esta tecnologia consiga, para além de reconhecer e transcrever discursos, entender e interpretar o contexto e significado dos diálogos.
Pode ler mais sobre o assunto no relatório técnico que a Microsoft disponibilizou.
Este artigo tem mais de um ano
Pergunta: Existe algum assitente que reconheça diferente vozes? Examplo: Google home foi ativado automaticamente por cause de uma publicidade via TV. Nunca devia ter ativado automaticament e deveria reconhecer a voz to utilizador. Existe algo que faça esta distinção?
posso estar redondamente enganado!… mas tenho ideia de que a xbox ( que usa a cortana acho eu…) consegue reconhecer vozes de diferentes utilizadores.
Sim, tenho a Siri configurada no Iphone e quando digo Hey Siri ela automaticamente abre e fica em escuta, mas se for outra pessoa ignora, contudo após eu a abrir qualquer pessoa pode interagir com ela.
Entretanto Cortana em Português nada 🙁
pois … infelizmente … 🙁
Como sempre…. só br… PT-PT nada!!… Não interessamos a ninguém!…
É uma questão de mercado. PT tem 10 milhões de habitantes. BR tem 200 milhões.
PT-BR é mais fácil e o PT-PT e mais EXATO, Bonito!
Por isso eles fazem PT-BR ;-D
Em 2016:
– população do Brasil 208 milhões
– população de Portugal 10 milhões (menos de 5% da população do Brasil).
Poucos mas bons 😉
Em todo o caso, tem que se agradecer ao Brasil que o PT (seja PT-BR ou PT-PT) “risque” (ainda “risca” bastante) na cena internacional.
Mas, em regra, os assistentes virtuais, mais virados para o PT-BR, percebem sem dificuldade o PT-PT, até o PT-AL(entejano).
Quanto à conteúdos é que é diferente – podem saber os resultados do “brasileirão” e não saber os do “campeonato nacional 🙂
PT-PT é mais bonito onde? PT-BR é muito mais prático e menos complicado, do que adianta ser chique se pouca gente fala?
E outra “poucos mas bons”? NUNCA! O Brasil tem vários problemas, mas agradeçam a gente por pensarem em traduzirem as coisas pra português já que se dependesse do país de vocês, isso dificilmente aconteceria.
Comentário sem sentido. Parece uma resposta de quem tem complexos de inferioridade.
PT-BR é mais prático e menos complicado, para um brasileiro, claro. E há uma coisa, que se chama subtileza, que qualquer pessoa minimamente inteligente percebe que dizer “poucos, mas bons” não tem que ter uma conotação depreciativa para com os outros. Quer dizer que apesar de sermos poucos, também somos bons no que fazemos. Não somos melhores, nem piores. Tão simples quanto isso. Para quê complicar?
Chique? Agora um Português falar português é chique?
O povo brasileiro tem imensas qualidades e devemos agradecer ao Brasil por muitas coisas como consequência de falar português, mas traduções não é propriamente uma delas. Tanto não é difícil de acontecer que há muita coisa traduzida para português de Portugal. Ser pequeno não significa ser irrelevante, outras línguas com pequenas populações têm traduções.
Menos complicado? Para quem? No brasil a maioria das pessoas nem sabe falar, usam “vim” em vez de “vir”, usam as formas verbais do você quando usam tu, usam as formas verbais do tu quando usam você.
Etc etc etc.
Desconheço. Acho que ainda não chegaram lá. Usar 1 botão para ativar os comandos no momento parece ser a alternativa a esse problema.
Todos os sistemas de reconhecimento de voz, Google, Amazon, MS e Apple estão a ser preparados para destingirem as vozes e terem comportamentos diferentes de acordo com quem fala com eles. Ou seja, esse não será um problema. No entanto, nenhum sistema é infalível…
Sou so eu que acho estranho falar para um telemóvel e esperar que ele responda?
Isto daqui a uns tempos, qdo as multinacionais criarem os psicólogos virtuais não poderá se tornar em máquinas de lavagem cerebral?
A Coreia do norte devia mandar uns mísseis nos centros de investigação destas coisas…….
Se toda a gente pensasse assim ainda nem à idade da pedra alguma vez tínhamos chegado.
Se quiseres podes muito bem ir viver para uma caverna com alguém que tenha os mesmos medos que tu e criar uma família de homens das cavernas com esperança média de vida da ordem dos 30 anos.
Até pode reconhecer as palavras a 100%, agora “entender e interpretar o contexto e significado dos diálogos”… boa sorte.
2 anos depois do windows 10 para pc e o cortana em PT-PT não funciona, só funciona em PT-BR? Quero o meu money de volta Microsoft!!!!!
O assistente não faz chamadas telefônicas por voz. Horrível