Os sistemas de controlo por voz estão na ordem do dia e são as estrelas das empresas que desenham sistemas operativos móveis, que passaram também a integrar assistentes virtuais. Contudo, a voz poderá não ser assim tão necessária, pelo menos poderá haver uma forma de subverter o conceito de “voz” utilizando um truque da natureza e, com isso, poder ter uma forma de atacar os dispositivos que estão predispostos a aceitar comandos da voz humana.
A investigação que damos hoje a conhecer é de uma equipa de cientistas chineses que utilizou a capacidade natural dos golfinhos para se inspirarem num tipo de ataque ultrassónico a smartphones, carros e assistentes virtuais.
Aplicações do tipo Google Assistant e Siri da Apple estão preparadas para, continuamente, escutarem os comandos e entrarem de imediato em ação, embora que o método de introdução desses comandos não é assim tão subtil. Isto porque na sua génese está a introdução de um comando de voz e o facto de “gritar” um comando para o smartphone um comando… é tudo menos elegante e discreto.
Assim, a Universidade Zhejiang decidiu agarrar num comando de voz padrão, convertê-lo para utilização na faixa ultrassónica (para que os humanos não o possam ouvir) e ver se o dispositivo reage a tal informação.
Golfinhos inspiram cientistas
O método, apelidado de DolphinAttack, aproveita o facto de que os ouvidos humanos são inúteis quando confrontados com sons bem acima dos 20 kHz. Assim, a equipa adicionou um amplificador, transdutor ultrassónico e bateria a um smartphone comum (custo total em peças rondou os 3 dólares) e usou-o para enviar comandos ultrassónicos para sistemas ativados por voz.
Ao alavancar a não linearidade dos circuitos de microfone, os comandos de áudio de baixa frequência modulados podem ser “desmodulados”, recuperados e, mais importante, interpretados pelos sistemas de reconhecimento de voz.
Referiu um dos investigadores responsáveis por esta experiência
A equipa validou o DolphinAttack nos sistemas populares de reconhecimento de fala, incluindo a Siri, Google Now, Samsung S Voice, Huawei HiVoice, Cortana e Alexa. Também foram testar ao mundo automóvel, para provar o seu conceito, e no sistema de navegação dos carros da Audi verificaram que, utilizando este método, a vulnerabilidade estava bem patente no sistema.
Onde poderia este método proceder a um ataque?
Como o controlo de voz tem muitas funções possíveis, a equipa conseguiu pedir a um iPhone para ligar para um número específico – o que é útil, mas não tão útil como um ataque. Contudo, poderiam solicitar ao dispositivo para visitar determinado site que poderia conter malware. Este método poderia ainda fazer os assistentes virtuais diminuir a luminosidade dos ecrã por forma a esconder o assalto ou simplesmente colocar o dispositivo offline colocando-o no modo avião.
O maior entrave no ataque não depende do próprio software de comando de voz, mas das capacidades de captura de áudio do dispositivo. Muitos smartphones atualmente possuem múltiplos microfones, o que torna um assalto muito mais efetivo.
Quanto ao alcance, a distância maior em que a equipa conseguiu fazer o ataque funcionar foi a 1,7 metros, o que certamente é prático. Tipicamente o sinal é enviado numa frequência entre os 25 e 39 kHz.