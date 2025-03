O Google DeepMind é único e tem feito progressos constantes no campo da IA ​​​​com atualizações regulares para Gemini, Imagen, Veo, Gemma e AlphaFold. Agora, a equipa Google DeepMind entrou no setor da robótica com dois novos modelos baseados no Gemini 2.0: Gemini Robotics e Gemini Robotics-ER. Vamos conhecer melhor estas novas propostas.

O Gemini Robotics é um modelo avançado de visão-linguagem-ação (VLA) baseado no Gemini 2.0, com a adição de ações físicas como uma nova modalidade de saída para controlar robôs. A Google afirma que este novo modelo consegue compreender situações que nunca viu antes em formação.

Em comparação com outros modelos de visão-linguagem-ação de última geração, a Gemini Robotics tem um desempenho duas vezes melhor num benchmark de generalização abrangente. Como a Gemini Robotics é construída no modelo Gemini 2.0, apresenta capacidades de compreensão de linguagem natural em diferentes idiomas. Assim, consegue compreender os comandos das pessoas de uma forma muito melhor.

Quando se trata de destreza, a Google afirma que a Gemini Robotics pode lidar com tarefas extremamente complexas e com várias etapas que exigem uma manipulação precisa. Por exemplo, este modelo pode fazer dobragens de origami ou colocar um snack num saco Ziploc.

O Gemini Robotics-ER é um modelo avançado de visão e linguagem que se concentra no raciocínio espacial e permite aos roboticistas ligá-lo aos seus controladores de baixo nível existentes. Utilizando este modelo, os roboticistas terão todos os passos para controlar um robô imediatamente, o que inclui a perceção, a estimativa de estado, a compreensão espacial, o planeamento e a geração de código.

A Google está a fazer uma parceria com a Apptronik para construir robôs humanoides baseados nos modelos Gemini 2.0. A Google também está a trabalhar com testadores fiáveis ​​selecionados, incluindo Agile Robots, Agility Robotics, Boston Dynamics e Enchanted Tools, no futuro da Gemini Robotics-ER.

Ao permitir que os robôs compreendam e executem tarefas complexas com maior precisão e adaptabilidade, o Google DeepMind está a abrir caminho único. Quer criar um futuro em que os robôs se podem integrar perfeitamente em vários aspetos das nossas vidas.