O Google DeepMind lançou dois modelos de inteligência artificial (IA): Gemini Robotics e Gemini Robotics-ER. Ambos foram projetados para ajudar robôs a “executar gama mais ampla do que nunca de tarefas no mundo real”.
O Gemini Robotics é um modelo de visão-linguagem-ação capaz de entender situações mesmo sem ter sido treinado para elas, segundo o Google. Já o Gemini-ER (sigla em inglês para raciocínio incorporado) a big tech descreve como um modelo avançado de linguagem visual que pode “entender nosso mundo complexo e dinâmico”, segundo postagem em seu blog.
Novos modelos de IA do Google para robôs usam Gemini
O Gemini Robotics roda Gemini 2.0, a versão mais recente do modelo de IA principal do Google. O novo modelo “aproveita o entendimento multimodal do Gemini sobre o mundo e o transfere para o mundo real, adicionando ações físicas como uma nova modalidade”, disse a diretora sênior e chefe de robótica no Google DeepMind, Carolina Parada, numa coletiva de imprensa, segundo o Verge.

O Robotics avança em três áreas consideras essenciais pelo Google DeepMind para construir robôs úteis: generalidade, interatividade e destreza.
Além da capacidade de generalizar novos cenários, o Gemini Robotics é melhor na interação com pessoas e seu ambiente. Também é capaz de executar tarefas físicas mais precisas, como dobrar um pedaço de papel ou remover uma tampa de garrafa.
Sobre o Gemini Robotics-ER, Carolina dá o seguinte exemplo: quando você prepara sua lancheira e tem itens sobre uma mesa à sua frente, é preciso saber onde está cada item, como abrir a lancheira, como pegar os itens e onde colocá-los. Esse é o tipo de raciocínio que o Gemini Robotics-ER deve realizar.
Leia mais:
- Google lança o Gemma 3, modelo de IA que supera todos os rivais
- Vale a pena comprar um celular exclusivamente devido à inteligência artificial (IA)?
- O que é e o que faz um agente de inteligência artificial?
Segurança ‘em camadas’

O pesquisador do Google DeepMind, Vikas Sindhwani, disse aos repórteres que a empresa desenvolve “abordagem em camadas” no que diz respeito à segurança. Sindhwani acrescentaou que os modelos do Gemini Robotics-ER “são treinados para avaliar se uma ação potencial é segura para ser realizada num determinado cenário”.
A big tech também lançou benchmarks e frameworks para ajudar a pesquisa de segurança na indústria de IA. E deu acesso a “testadores confiáveis” ao seu modelo Gemini Robotics-ER. Entre eles, estão: Agile Robots, Agility Robotics, Boston Dynamics e Enchanted Tools.
O post DeepMind: novos modelos de IA ajudam robôs a fazer tarefas no mundo real apareceu primeiro em Olhar Digital.