Sphinx – Reconhecimento de voz em Linux
Uma das tecnologias que mais promete revolucionar (já há alguns anos) o interface entre utilizador e aplicações é o reconhecimento de voz. Muitas são as grandes empresas que se têm dedicado a este assunto, no entanto, as soluções apresentadas não são tão eficientes como se gostaria, e daí ainda não existir uma aplicação que se diferencie das outras.
Durante as minhas pesquisas na blogosfera, encontrei um projecto open-source que tem como objectivo fazer o reconhecimento de voz, tendo como base o Linux. Depois de ver um pequeno vídeo, fiquei rendido ao projecto Sphinx não só pela simplicidade como também porque,uma vez que é open-source, pode ser uma mais valia para outros projectos.
Uma vez que existem milhares de padrões (a nível de voz), a complexidade deste tipo deste tipo de aplicações/projectos dificulta a investigação de uma solução ideal e eficiente.
O projecto Sphinx (para Linux) que promete dar cartas nesta área.
Para o Windows 7 existe já um sistema integrado para reconhecimento de voz que funciona razoavelmente bem. Então e paro o mundo open-source, o que existe?
Ora muito bem, como já referi, depois de algumas pesquisas descobri o Sphinx -o CMU Sphinx, um projecto com o objectivo de fazer reconhecimento de voz, e que está a ser desenvolvido na Universidade de Carnegie-Mellon. Este projecto inclui uma série de identificadores de discurso (Sphinx 2 - 4) e de um instrutor modelo acústico (SphinxTrain) – Podem saber mais aqui.
Para melhor percebermos o projecto, está disponível um vídeo oficial que podem ver de seguida:
Basicamente o projecto Sphinx está dividido em 3 partes:
- Sphinx 3 – decoder para reconhecimento de voz escrito em C
- Sphinx 4 - um cliente multiplataforma, escrito em Java
- PocketSphinx – Orientado para os sistema embebidos e móveis (escrito em C)
Certamente que alguns de vocês vão experimentar estas ferramentas. Esperamos pelo vosso feedback. Da nossa parte, vamos tentar divulgar este projecto, de forma a que seja uma mais valia para outros projecto portugueses (Lembro-me do MagicKey, Easy Voice, para a área da robótica, entre outro).
Artigos relacionados
- Projecto Magic Key – Um olhar que nos guia…
- Magic Eye ganha prémio Eng. Jaime Filipe
- Cadeira de rodas eléctrica controlada com o olhar
- Microsoft convida Portugueses a dar Voz aos computadores
Licença: OpenSource Sistemas Operativos: GNU Linux Download: CMU Sphinx [194.83KB] Homepage: Cmusphinx
Este artigo tem mais de um ano
Muito interessante, mas ainda verdinho parece-me…
O futuro passa por aqui sem dúvida.
“Da nossa parte, vamos tentar divulgar este projecto, de forma a que seja uma mais valia para outros projecto portugueses (Lembro-me do MagicKey, Easy Voice, para a área da robótica, entre outro).”
O projecto não é Português, por isso se calhar era melhor reconstruir esta frase, não? Se puderes, põe links também para esses projectos, porque MagicKey encontro tudo menos um projecto
O EasyVoice é Português. Entretanto ja coloco os links para o Magickey. 1 min
É efectivamente uma ferramenta muito utilizada em projectos de investigação. Podem ver algum trabalho relacionado na VoiceInteraction, spin-off do L2F do INESC-ID, que tem aparecido por sucessivas vezes nos meios de comunicação.
O man viu-se aflito para apresentar xD
Imprevistos acontecem….
Apesar do projecto estar verde fiquei muito surpreendido com os resultados… nao estava à espera de um reconhecimento tão eficaz..
Lembro-me de brincar com o freespeech 2000… e primeiro que ele nos reconhecesse a voz.. éra um pesadelo…
Olá amigo Vítor!!!
Nova versão do Firefox disponível para download em:
http://jorgesalvador.wordpress.com/2010/07/25/firefox-3-6-8-final/
1 abraço.
Jorge Salvador.
Há também o Voxforge:
http://www.voxforge.org/
Existe alguma API em C para aceder ás funcionalidades deste sistema?