Pplware

Google Majel – O assistente pessoal por voz da Google

…E poderá ser lançado já no final deste ano ou no primeiro trimestre de 2012 

Por Hélder Ferreira para o PPLWARE.COM

Lembram-se de há uns meses atrás a Google ter falado sobre o futuro das ações por voz no Android? E os rumores que surgiram após esse anúncio foram de um possível desenvolvimento de um assistente pessoal por voz? Então os rumores passaram a realidade, apesar de ainda não ter sido oficialmente anunciado pela Google.

O projeto é conhecido pelo nome de código Majel, o nome é alusivo à atriz Majel Barrett-Roddenberry, e para quem não sabe quem ela é, era a atriz que dava voz à maioria dos computadores de bordo das naves espaciais da série Star Trek.

Matias Duarte, chefe da equipa de design do Android, já tinha dado algumas pistas sobre o futuro do “Android Voice Actions” numa entrevista à SlashGear.

“Our approach is more like Star Trek, right, starship Enterprise; every piece of computing surface, everything is voice-aware. It’s not that there’s a personality, it doesn’t have a name, it’s just Computer.”

Muito se especulou o que a Google poderia estar a preparar…

O projeto Majel trata-se de uma evolução do serviço de voz que a Google já tem disponível na maioria dos equipamentos Android, o que irá fornecer aos utilizadores Android uma interação futurista com os seus equipamentos.

No Market Android, existem aplicações que fazem algumas das funções que o Majel irá permitir fazer, usando recurso ao serviço de voz da Google, como por exemplo o Vlingo que permite enviar mensagens e fazer chamadas por comandos de voz.

Contudo esperasse que o Google faça uma melhoria bastante significativa no motor de interpretação de voz e dialetos, para não acontecer más interpretações como o TellMe do Windows Phone faz.

A Google, em finais de 2010, adquiriu a Phonetic Arts, e deverá aplicar a tecnologia fonética da empresa no Majel que irá dar grandes avanços de voz humana ou quase humana à aplicação.

A ideia de falarmos para o telemóvel pode ser um pouco esquisita, mas na realidade, o foco principal é dar inteligência aos dispositivos de forma a diminuir a interação manual das pessoas para fazer algo.
Ficam aqui com um pequeno apetrecho.

Durante o dia 14, mais alguns detalhes foram revelados sobre o projeto secreto que o Google X Lab tem entre mãos.

Algumas pessoas, duas delas anónimas pela questão do acordo NDA, a par ou dentro dos desenvolvimentos, deram alguns detalhes que aliciam para algo realmente acima do que já se viu até agora. O entusiamo destes é tão grande, que apesar de darem uma palavra anonimamente, pouco se mostram interessados se estão ou não a violar os acordos NDA.

Ted (pseudónimo) descreveu a experiência que teve com uma das versões não finais do Majel num tablet Android.

“É definitivamente tão bom ou melhor do que o Siri. Pelo menos no tablet, pode-se ordenar diferentes respostas pelas bandejas que aparecem. Por exemplo se disser, “mostra-me a Estatua da Liberdade” automaticamente mostra um resultado no Google Images, outro com a localização no Google Maps e outro com um resultado no Wikipedia. É também muito bom receber uma resposta sucinta a quando perguntamos algo. O User Interface é definitivamente melhor do que o do Siri, apesar de ser um pouco mais difícil de a usar.

Pelo menos nesta primeira fase dos desenvolvimentos, tem que se dizer “Computer” para ativar o Majel. Foi difícil não usar a pronúncia do Jean Luc Piccard para o fazer!”

Texto original:

“It’s definitely as good, or better, than Siri. At least on the tablet you can sort through different answers with these swipe-able trays. Like, if you say “show me the Statue of Liberty” it’ll automatically take you to Google Image results, but another tray beneath it might be its location on Google Maps and then another tray might have a Wikipedia page. It’s also pretty good at giving you succinct answers if you ask it a question. The UI is definitely more powerful than Siri’s, even if a little harder to navigate.

At least at one phase of the development you would activate it by saying “Computer…” It was hard not to use a Jean Luc Piccard accent when doing it!”

Os detalhes do “Ted” dão uma imagem quase clara de como é e como funciona a primeira versão do Majel. Resumidamente, a primeira versão estará concentrada só em receber perguntas e responder com pesquisas no Google Search.

Os trabalhadores da Google têm feito grandes avanços sobre a tecnologia da Inteligência Artificial, até podemos ver no tradutor do Google, que o robô do programa tem levado grandes melhorias a nível de inteligência, da base de conhecimentos e da voz.

Para além do “Ted” outras duas personalidades deram detalhes ou simplesmente pistas sobre o projeto secreto.

Num tópico na rede de notícias sociais Reddit, em comentário a um ex funcionário do Google, que afirma ter participado no projeto secreto do Google X Lab, um anónimo ou pelo pseudónimo throwaway2011x500, respondeu:

“Isto é uma total violação aos termos do NDA, mas não me importo. Processem-me.

Nos últimos anos os objetivos da equipa do Google X tem residido num robô de inteligência artificial altamente avançado que utiliza a tecnologia subjacente dos populares programas do Google. A partir de Outubro a IA passou no Turing Test com 93% do tempo de conversação numa conversa de uma hora ao estilo IM. O IM foi escolhido para isolar o AI do sintetizador de voz e do robô (físico)

O robô em si é de todo avançado uma vez que o objetivo não estava em dar avanço mecânico mas sim avanço no software. O reconhecimento de voz é algo superior à entrada de voz normal, principalmente por causa do uso de microfones de alta qualidade e do assistente para leitura labial.

Tive a oportunidade de interagir pessoalmente com o robô e honestamente, foi a coisa mais incrível que já vi. O robô é mais como o Stephen Hawking, extremamente inteligente, mas limitado fisicamente. Como parte dos planos tecnológicos, está nos planos uma segunda fase para o desenvolvimento de uma plataforma robótica altamente avançada.”

Texto original:

“This is in total violation of the NDA, but I don’t care anymore. Sue me.

The central focus of Google X for the past few years has been a highly advanced artificial intelligence robot that leverages the underlying technology of many popular Google programs. As of October (the last time I was around the project), the artificial intelligence had passed the Turing Test 93% of the time via an hour long IM style conversation. IM was chosen to isolate the AI from the speech synthesizer and physical packaging of the robot.

The robot itself isn’t particularly advanced because the focus was not on mechanics, but rather the software. It is basically a robotish looking thing on wheels. Speech recognition is somewhat better than what you would get with normal speech input, mostly because of the use of high quality microphones and lip-reading assistance.

I have had the chance to interact with the robot personally and it is honestly the most amazing thing that I have ever seen. I like to think of it like Stephen Hawking because it is extremely smart and you can interact with it naturally, but it is incapable of physically doing much. There is a planned phase two for development of an advanced robotics platform.”

Num artigo escrito no blog oficial do Google, Mike Cohen, Manager of Speech Technology e co fundador da empresa que desenvolveu parte da tecnologia do Siri, Nuance Communications, ditou algumas palavras pertinentes.

“No Star Trek, as pessoas não despendem tempo em digitar no teclado, eles simplesmente falam para os computadores e os computadores respondem. É a forma mais natural de comunicar, mas chegar a tais feitos, requer vias rápidas para grandes problemas que a pesquisa trás.

Recentemente temos feito avanços na tecnologia de voz e nas ferramentas por detrás da entrada de voz. Então e sobre quando o computador fala para si, noutras palavras, a saída de voz?

É por isso que temos o prazer de anunciar que adquirimos a Phonetic Arts, uma empresa sedada em Cambridge, Inglaterra e que trabalha em síntese vocal. A equipa da Phonetic Arts tem estado a trabalhar na tecnologia de síntese vocal do robô, de forma a fornecer ao robô um discurso em voz humana.

Estamos muito entusiasmados com a tecnologia deles, e enquanto não temos planos para partilhar, nós estamos confiantes de que juntos vamos conseguir rapidamente um futuro em volta do Star Trek.”

Texto original:

“In Star Trek, they don’t spend a lot of time typing things on keyboards—they just speak to their computers, and the computers speak back. It’s a more natural way to communicate, but getting there requires chipping away at a range of hard research problems.

We’ve recently made some strides with speech technologies and tools that take voice input. But what about when the computer speaks to you—in other words, voice output?

That’s why we’re pleased to announce we’ve acquired Phonetic Arts, a speech synthesis company based in Cambridge, England. Phonetic Arts’ team of researchers and engineers work at the cutting edge of speech synthesis, delivering technology that generates natural computer speech from small samples of recorded voice.

We are excited about their technology, and while we don’t have plans to share yet, we’re confident that together we’ll move a little faster towards that Star Trek future.”

A robótica irá ser definitivamente o futuro para quase tudo. Com os progressivos avanços na área robótica, na tecnologia da inteligência artificial e na voz robótica, qualquer dia passamos a falar com eles na rua sem sabermos.

Tudo isto parece muito ideias viradas para o que se pretende ver no futuro.

Já no mês passado o jornal norte-americano The New York Times escreveu um artigo sobre as 100 ideias do Google X. Estas ideias, intituladas de Shoot-For-The-Stars, são um pouco irreais, incriáveis ou mesmo impensáveis para a atualidade.

De regresso ao universo Star Trek, Amit Singhal, Engenheiro de Software, deu o seu testemunho sobre todo este assunto.

“O meu sonho sempre foi construir o computador do Star Trek, e no meu mundo ideal, eu seria capaz de chegar ao pé dele e dizer, “Ei!, qual é o melhor momento para semear sementes na India, dado que a moção foi no inicio deste ano?”. E uma vez que podemos responder a essa pergunta (não hoje), as pessoas vão procurar respostas para questões mais complexas. As pessoas precisam de informações genuínas. Se podermos dar essas respostas genuínas aos nossos utilizadores, eles irão ficar mais informados e mais satisfeitos na procura pelo conhecimento.”

Texto original:

“My dream has always been to build the Star Trek computer, and in my ideal world, I would be able to walk up to a computer, and say, ‘Hey, what is the best time for me to sow seeds in India, given that monsoon was early this year?’ And once we can answer that question (which we don’t today), people will be looking for answers to even more complex questions. These are all genuine information needs. Genuine questions that if we – Google – can answer, our users will become more knowledgeable and they will be more satisfied in their quest for knowledge.”

Como não podia de deixar, Matias Duarte, o conhecido homem que na apresentação do Samsung Galaxy Nexus, o telemóvel não reconheceu a sua cara, numa entrevista ao The Daily Beast, falou sobre a tecnologia mais abordada neste artigo, a tecnologia de voz.

“A voz irá definitivamente fazer parte do essencial de uma UI. Quero dizer, o Google e o Android têm vindo a trabalhar já a alguns anos na tecnologia de voz. Mesmo no Ice Cream Sandwich, lançamos melhorias significativas no modo como funciona a Dication Voice.

O que é realmente interessante é tratar a voz como um meio universal, acessível em qualquer aplicação e não só em situações com por exemplo estar a conduzir.

Quando se assiste a películas de ficção científica como por exemplo Star Trek, e quando alguém começa a tocar na parede e a falar com o computador ao mesmo tempo, é desta forma que as interfaces precisam de ser evoluídas.”

Texto original:

“Voice is absolutely going to be an essential part of user interfaces. I mean Google and Android have been working on Voice for years. Even in Ice Cream Sandwich we released significant improvements to the way Voice dication works. What I think is going to be interesting about Voice is trying to treat Voice as something that is universally accessible in every application and not confine it to just a gimmick or something you only use when you are in the car or on the go.

I really want computers to be multimodal. When you watch a science fiction show like Star Trek, someone walks up to a wall and starts touching things and speaking to a computer at the same time. That’s the way that I think our interfaces need to evolve. You need to be able to start using email, touching things on screen, speak to it, touch more things, and not really have to think about ‘am I using Voice now or not using Voice.’ You just use the computer input that is most natural at that time.”

Isto parece um pouco mais avançado do que se esperava, mas pelo que o Matias Duarte disse no artigo, já andam a trabalham na interface da próxima versão e da seguinte.

A próxima versão do Android tem como nome de código Jelly Bean, mais uma vez um nome de um conhecido doce.

O Majel pode ficar disponível para todas ou quase todas as versões Android.

Os engenheiros do Google estão a preparar uma versão que irá sair como uma atualização ao sistema de voz atual no Android, mas certamente irá ser integrado nativamente nas próximas versões do Android. [via]

Exit mobile version