Els nous models d’IA de Google permeten als robots executar tasques com fer papiroflèxia i empaquetar objectes
Google DeepMind ha presentat dos models d’IA dissenyats per transformar la interacció dels robots amb l’entorn: Gemini Robotics i Gemini Robotics-ER. Basats en l’arquitectura de Gemini 2.0, els models busquen dotar els robots d’habilitats motores i una capacitat d’adaptació mai vista fins ara, cosa que els permet dur a terme tasques que fins ara eren exclusivament humanes.
Visió, llenguatge i acció en un sol model
Gemini Robotics introdueix un model integral de visió-llenguatge-acció, que combina la comprensió del llenguatge natural amb la capacitat de processar informació visual i executar moviments. Això permet als robots executar tasques de forma autònoma. Per exemple, un robot pot rebre l’ordre d’“agafar el plàtan i col·locar-lo a la cistella”, identificant correctament l’objecte i realitzant l’acció sense intervenció humana.
També s’estén a tasques més complicades, com plegar figures d’origami o empaquetar productes en bosses sense danyar-los. Això representa un salt respecte a models anteriors com RT-2, que es limitaven a moviments prèviament entrenats.
‘Embodied Reasoning’: millor raonament espacial
D’altra banda, Gemini Robotics-ER se centra en el raonament encarnat, oferint als robots una comprensió espacial més avançada. Això facilita la integració d’aquest model en sistemes de control robòtics existents i millora la capacitat dels robots per interactuar de forma segura i precisa amb el seu entorn. Aquesta característica és important per a tasques que requereixen un alt grau de manipulació i precisió.
Robots preparats per a l’inesperat
Una de les característiques més destacades dels models és la seva capacitat de generalització. Segons DeepMind, Gemini Robotics duplica el rendiment en proves de generalització, per davant d’altres models d’última generació. Això significa que els robots poden adaptar-se a noves tasques i situacions no previstes durant el seu entrenament, per a entorns dinàmics i impredictibles.
Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.