Google DeepMind анонсировали Gemini Robotics — VLA-модель для робототехники

12 марта Google DeepMind анонсировали свою новую vision-language-action (VLA) модель Gemini Robotics на основе языковой модели Gemini 2.0.

VLA (Vision-Language-Action) — это архитектурный подход для создания систем, оперирующих в реальном мире, объединяющий компьютерное зрение, языковую модель и модель физического управления. Первая часть модели (vision) распознает изображение с камер и других сенсоров, вторая (language) позволяет воспринимать команды пользователя и выстраивать стратегию действий. И последняя (action) формирует команды для актуаторов.

Команда проекта заявляет, что модель будет легко адаптировать к разным типам роботов, но обучение производилось в основном на базе двурукой платформы ALOHA-2. Также была продемонстрирована версия, адаптированная для манипуляторов Franka, популярных в промышленности и академических лабораториях.

Для проекта была разработана продвинутая vision-language модель под названием Gemini Robotics-ER (сокращение от «embodied reasoning»). Эта модель расширяет способности Gemini к пониманию окружающего мира в аспектах, критически важных для робототехники, с особым акцентом на пространственное мышление.

Gemini Robotics-ER значительно улучшает уже имеющиеся функции Gemini 2.0, такие как указание объектов (pointing) и трёхмерное распознавание (3D detection). Объединяя пространственное мышление с навыками программирования, модель может динамически порождать новые способности. Например, при демонстрации кофейной кружки модель определяет оптимальный двухпальцевый захват и безопасную траекторию подхода к объекту.

127 просмотров

Обсудить

0 комментариев

Последние

Написать

Комментариев пока нет

Google DeepMind анонсировали Gemini Robotics — VLA-модель для робототехники

айтишнику.рф