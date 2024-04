A Apple estará a preparar algo revolucionário no que toca às ferramentas de inteligência artificial. Os investigadores da empresa desenvolveram um novo sistema de IA que consegue compreender o que se passa no ecrã do dispositivo. Além disso, percebe o contexto da conversa e permite interações mais naturais com assistentes de voz.

ReALM melhor que ChatGPT

O sistema, denominado ReALM (Reference Resolution As Language Modeling), utiliza modelos linguísticos de grande dimensão para converter a complexa tarefa de resolução de referências - incluindo a compreensão de referências a elementos visuais num ecrã - num problema de modelação linguística pura. Isto permite ao ReALM obter ganhos de desempenho substanciais em comparação com os métodos existentes.

Ser capaz de compreender o contexto, incluindo as referências, é essencial para um assistente de conversação. Permitir que o utilizador faça perguntas sobre o que vê no seu ecrã é um passo crucial para garantir uma verdadeira experiência de mãos livres nos assistentes de voz.

Escreveu a equipa de investigadores da Apple.

Melhorar os assistentes de conversação

Para lidar com as referências baseadas no ecrã, uma inovação fundamental do ReALM é a reconstrução do ecrã utilizando entidades analisadas no ecrã e as suas localizações para gerar uma representação textual que capte a disposição visual.

Os investigadores demonstraram que esta abordagem, combinada com modelos linguísticos de afinação específicos para a resolução de referências, poderia superar o GPT-4 nesta tarefa.

Demonstramos grandes melhorias em relação a um sistema existente com funcionalidade semelhante em diferentes tipos de referências, com o nosso modelo mais pequeno a obter ganhos absolutos de mais de 5% para referências no ecrã. Os nossos modelos maiores superam substancialmente o GPT-4.

Escreveram os investigadores.

Aplicações práticas e limitações

O trabalho destaca o potencial de modelos linguísticos específicos para lidar com tarefas como a resolução de referências em sistemas de produção em que a utilização de modelos massivos de ponta a ponta é inviável devido a restrições de latência ou de computação.

Ao publicar a investigação, a Apple está a sinalizar os seus investimentos contínuos para tornar a Siri e outros produtos mais conversadores e conscientes do contexto.

Ainda assim, os investigadores alertam para o facto de a análise automática dos ecrãs ter limitações. O tratamento de referências visuais mais complexas, como a distinção entre várias imagens, exigiria provavelmente a incorporação da visão por computador e de técnicas multimodais.

A Apple corre para colmatar o fosso da IA enquanto os rivais disparam

A Apple está discretamente a dar passos significativos na investigação em inteligência artificial, mesmo quando está atrás dos seus rivais tecnológicos na corrida para dominar o cenário da IA em rápida evolução.

Desde modelos de linguagem multimodal de grande dimensão (MLLM) que misturam visão e linguagem, a ferramentas de animação alimentadas por IA, passando por técnicas para criar IA especializada de alto desempenho com um orçamento limitado, sugerem que a Apple está a aumentar fortemente o seu investimento neste segmento.

Mas este gigante tecnológico enfrenta uma forte concorrência de empresas como a Google, a Microsoft, a Amazon e a OpenAI, que produziram agressivamente IA generativa na pesquisa, software de escritório, serviços de cloud e muito mais.

Na verdade, a Apple tem sido uma espetadora deste mercado e não uma pioneira. Como tal, poderá estar a perder a oportunidade de trazer ao utilizador as mais avançadas ferramentas. Na sua Conferência Mundial de Programadores, a WWDC, em junho, a empresa deverá revelar uma nova estrutura de modelos de linguagem de grande dimensão, um chatbot "Apple GPT" e outras funcionalidades de IA no seu ecossistema.

A questão que se coloca é se ainda vai a tempo de trazer inovação a este segmento cada vez mais popular de opções. E se será no iOS 18.