Google revelou o Gemini Robotics, um modelo Gemini 2.0 optimizado para robôs
O Google DeepMind é único e tem feito progressos constantes no campo da IA com atualizações regulares para Gemini, Imagen, Veo, Gemma e AlphaFold. Agora, a equipa Google DeepMind entrou no setor da robótica com dois novos modelos baseados no Gemini 2.0: Gemini Robotics e Gemini Robotics-ER. Vamos conhecer melhor estas novas propostas.
O Gemini Robotics é um modelo avançado de visão-linguagem-ação (VLA) baseado no Gemini 2.0, com a adição de ações físicas como uma nova modalidade de saída para controlar robôs. A Google afirma que este novo modelo consegue compreender situações que nunca viu antes em formação.
Em comparação com outros modelos de visão-linguagem-ação de última geração, a Gemini Robotics tem um desempenho duas vezes melhor num benchmark de generalização abrangente. Como a Gemini Robotics é construída no modelo Gemini 2.0, apresenta capacidades de compreensão de linguagem natural em diferentes idiomas. Assim, consegue compreender os comandos das pessoas de uma forma muito melhor.
Quando se trata de destreza, a Google afirma que a Gemini Robotics pode lidar com tarefas extremamente complexas e com várias etapas que exigem uma manipulação precisa. Por exemplo, este modelo pode fazer dobragens de origami ou colocar um snack num saco Ziploc.
O Gemini Robotics-ER é um modelo avançado de visão e linguagem que se concentra no raciocínio espacial e permite aos roboticistas ligá-lo aos seus controladores de baixo nível existentes. Utilizando este modelo, os roboticistas terão todos os passos para controlar um robô imediatamente, o que inclui a perceção, a estimativa de estado, a compreensão espacial, o planeamento e a geração de código.
A Google está a fazer uma parceria com a Apptronik para construir robôs humanoides baseados nos modelos Gemini 2.0. A Google também está a trabalhar com testadores fiáveis selecionados, incluindo Agile Robots, Agility Robotics, Boston Dynamics e Enchanted Tools, no futuro da Gemini Robotics-ER.
Ao permitir que os robôs compreendam e executem tarefas complexas com maior precisão e adaptabilidade, o Google DeepMind está a abrir caminho único. Quer criar um futuro em que os robôs se podem integrar perfeitamente em vários aspetos das nossas vidas.
Enquanto uns brincam com chatbot’s e imagenszinhas outros realmente fazem aplicações uteis e reais da AI.
……. principio do sky net, e começo do terminaor…….
Isto sim é verdadeira IA – Inteligência Artificial.
Concordo contigo Álvaro Silva, apenas dois pequenos reparos é “princípio” e “terminator”
Talvez tenha a ver com novo modelo gemma3 que saiu anteontem. Excelente em chat e em interpretaçao de imagens. Nos meus testes um modelo de 8b sem treino foi cpaz de extrair dados de documentos e identificar objetos. Além disso fala muito bem e consome poucos recursos. Para mim destronou facilmente o r1 da deepseek. Ainda por cima fala pt-pt :D. Como as capacidades visuais dele não suvida que seja o bom para aplicações de interação com o mundo real.