Группа исследователей ИИ из Google и Берлинского технического университета представила PaLM-E, визуально-языковую модель (VLM) с 562 миллиардами параметров. Создатели пишут, что это самая большая VLM из когда-либо разработанных и что она может выполнять различные задачи без необходимости переобучения.
По данным Google, при подаче команды высокого уровня, например, "принеси мне рисовые чипсы из ящика", PaLM-E может сгенерировать план действий и самостоятельно выполнить эти действия.
PaLM-E делает это, анализируя данные с камеры робота, не нуждаясь в предварительной обработке представления сцены. Это устраняет необходимость предварительной обработки или аннотирования данных человеком и позволяет более автономно управлять роботом.
Он также устойчив и может реагировать на окружающую среду. В видео примере исследователь берет чипсы у робота и перемещает их, но робот находит чипсы и снова берет их.
Источник новости: www.ferra.ru