Если вы видели весеннюю вечернюю программу боевых искусств этого года «武BOT», на вас определенно произведет глубокое впечатление робот, который находится на одной сцене с роботом.

Почему робот хорошо работает в фиксированной сцене?
Основная причина заключается в том, что в отрасли отсутствуют обучающие данные с указанием действий для обобщенного обучения, в то время как крупномасштабные данные о людях в Интернете являются источником чрезвычайно потенциальных данных. Чтобы направить интеллект к времени GPT, необходимо пройти через парадигму крупномасштабного обучения данных, такую как большая модель, изучая универсальное представление скрытых действий между телами с помощью видеоданных человека.
По этой причине мы предложили LARYBench (представление скрытого действия для эталонной доходности) руководство от крупномасштабного изучения визуальных данных до общих скрытых действий.Результаты экспериментов показывают, что: Точность управления, производительность модели общего зрения спроектирована разумно.
01 Фон:Стандарт от видео к экшену отсутствует
В нынешней основной модели «Видение-Язык-Действие» (VLA) ее способность к обобщению ограничена основным противоречием: видео, визуальные сигналы чрезвычайно богаты, но как преобразовать эту визуальную информацию в полезное представление действий роботами, всегда отсутствует эффективный путь. Конкретно выражено на трех уровнях:
- горлышко бутылки с данными: Данные робота с точными спецификациями действий зависят от сбора данных с помощью дистанционного управления, высокой стоимости и небольшого масштаба; большой размер тела, но естественное отсутствие метки исполняемого действия робота, между экраном и действием существует большой парадокс, а также естественное отсутствие метки исполняемого действия робота
- горлышко бутылки: даже если информация извлекается из человеческого видео, данные о движениях тела, выводимые традиционным методом, сильно привязаны к конкретному оборудованию, и их сложно передавать между формами. Представление скрытого движения абстрагирует язык движения, не связанного с телом, путем изучения «изменений между кадрами», обеспечивая промежуточное представление с большим потенциалом обобщения для соединения связи от видения к действию.
- 范式узкое место: Долгосрочная зависимость от искусственной маркировки делает интеллект 具身 ограниченным «точной настройкой фиксированной сцены», неспособным выйти из масштабированных данных, таких как большая языковая модель. Суть пути представления скрытых действий заключается в том, что он пытается масштабировать предварительное обучение, основанное на неразмеченном человеческом видео, так что обучение от видения к действию также может идти по пути расширения на основе данных.
Поскольку ранняя работа LAPA и т. д. была выдвинута в 2024 году, исследования, основанные на представлении скрытых действий, были продолжены. Однако текущая оценка проводится в основном только по показателю успешности задачи, и до сих пор отсутствует стандартный эталон, который мог бы независимо измерять качество промежуточного представления — поля представления действий, не имеющего собственной ImageNet. В частности, трудно отделить представление от последующей стратегии, невозможно проверить способность обобщать данные по всему телу, а систематический анализ стратегии тренировок отсутствует.
02 LARYBench: Как построить стандартный тест
Чтобы восполнить этот пробел, мы предложили LARYBench, начиная с двух уровней детализации: действия тела и вербального действия. Система оценивает качество представления скрытых действий. Как показано на рисунке 1, набор оценочных данных охватывает более миллиона сегментов тщательно маркированного видео (в общей сложности более 1000 часов), включающего 151 различный тип действия, а также включает 620 000 пар изображений и 59 500 000 дорожек движения, охватывающих широкий спектр форм роботов и рабочих сред.

2.1 Процесс определения задачи и оценки
Основная логика оценки показана на рисунке 2: введите последовательность видео или изображений, извлеките действие модели LAM, протестировав ее, а затем проверьте качество z путем зондирования.

Определение действия разделено на три уровня от тонкого до толстого:

- основное действие: сигнал управления работой робота, основное использование положения терминала, включая 3D-координаты запястья, 3D-вращение
- Атомное языковое действие: тело действия агрегируется для атомарной операции, описанной на естественном языке, такой как перемещение верхней, нижней, левой, передней и задней движущихся частей.
- сложные глаголы:Действие прикрепления далее агрегируется для полного языкового поведения, например:
Для действий разной детализации при оценке используются разные методы проверки:
- Лингвистическая классификация:对电影的表征 z 小时 Тщательно исследуя структура, структура, структура, структура, структура, структура, структура, структура, структура, структура, структура
- тело обратного действия: 对表征 z 名合Эксперт в действии декодер (MLP), выполняет непрерывную операцию регрессии, измеряет вероятность ошибок (MSE) и снижает вероятность ошибок.
2.2 после постройки
Для многогранных действий мы собрали основные данные о людях от первого лица с разных точек зрения, данные о роботах через плечо и создали набор данных для представления действий посредством автоматизированной обработки данных. Точность составляет более 95%. Набор данных охватывает 151 четко определенное действие и соответствующие 121 500 000 образцов.

Чтобы обеспечить разнообразие форм, набор данных охватывает 11 различных форм роботов, от широко используемого однорукого оператора Franka до серий AgiBot G1, Agilex Cobot и Realman и т. д.
Чтобы обеспечить разнообразие окружающей среды, в наборе данных было записано несколько тысяч уникальных сцен работы объектов, охватывающих моделируемый рабочий стол, реальную жилую кухню, коммерческие помещения, промышленные сцены и т. д. неструктурированную среду.


Информация о распределении данных следующая:


2.3 Тестовая установка
Оценка типа задачи делится на две категории. Тело задачи действия представляет собой пару изображений, состоящую из начального кадра и конечного кадра в качестве входных данных, а таблица действий сопоставляется с концом параметра выполнения модулем Action Expert мелкого уровня, а ошибка (MSE) измеряется той же парой входных изображений, а точность классификации используется в качестве индекса оценки.
Оцениваемая модель охватывает четыре типа моделей представления действий, включая модели скрытых действий, разработанные специально для 具身 интеллекта, универсальные визуальные кодировщики на уровне языка и пикселя, а также модели скрытых действий, обученные на основе универсальных кодировщиков, чтобы сформировать полный эталон от специализированных до общих возможностей.
Результаты теста 03: общее лидерство общей визуальной модели
Экспериментальная часть диссертации вращается вокруг трех основных вопросов:
- Содержит ли действие достаточно закодированной управляющей информации?
- 这些表征老能能国际设计的这个这些
- И как построить эффективную модель скрытого действия
Следующее из регрессии основной части действий, классификации языковых действий, визуального анализа и четырехкратного пробного эксперимента.
3.1 Регрессия действий тела: прогнозирование действий робота.
Тело задачи регрессии действий оценивает способность модели восстанавливать визуальный сигнал до абсолютного положения конца привода. Оценка охватывает четыре набора данных: CALVI N (эмуляция одной руки), VLABench (эмуляция одной руки), RoboCOIN (AgiBotWorld-Beta). (第一人称真机发至). Во всех моделях в качестве индекса оценки используется среднеквадратическая ошибка (MSE). Чем ниже значение, тем выше точность регрессии.
Таким образом, DINov3 имеет среднее значение MSE 0,19 для всех четырех наборов данных, а LAPA — MSE 0,97. VAE), описание информации об основных действиях также может быть эффективно зарезервировано в пространстве функций языкового уровня.

3.2 Классификация языковых действий
Способность распознавания языка действий высокого уровня в модели оценки классификации языковых действий в соответствии с источником данных делится на три типа задач: атомарное действие, сложное действие человека и сложное действие робота. В целом универсальный кодировщик языкового уровня продолжает лидировать в трех категориях задач, тогда как общая производительность специальной модели низкая, а общий LAM находится посередине. Визуальное обучение с самоконтролем лучше улавливает язык действий, чем обучение сравнению изображения и текста, хотя первое может учитывать детали визуального действия и контроля.

3.3 визуальный анализ
Для дальнейшего изучения причин вышеупомянутого экспериментального вывода мы провели следующее исследование.
3.3.1 Долгосрочный анализ распределения
Судя по эффективности классификации на наборе данных Composite Human с распределением изменений частоты выборки, тенденция каждого метода в основном одинакова для высоко-низкочастотного движения. На длинном участке (категория меньшего движения) разрыв в производительности между сильной моделью и слабой моделью еще больше увеличивается. Это указывает на то, что модель с более сильной способностью представления имеет лучшую производительность обобщения в низкочастотной сцене.

3.3.2 Анализ визуализации
Визуальное отображение последовательности действий «倾倒», внимание V-JEPA-2 и DINOv3 может быть более точно сосредоточено на области взаимодействия между рукой и объектом. По сравнению с областью взаимодействия руки и предмета внимание можно более точно сфокусировать на области взаимодействия руки и предмета. По сравнению с областью взаимодействия объекта у FLUX.2-dev VAE и Wan2.2 распределение внимания VAE более рассеяно, некоторые тени и т. д. слабее связаны с языком действий.
Причиной этого явления может быть то, что кодер на уровне пикселей имеет тенденцию фиксировать визуальные изменения каждого пикселя (окклюзия), и эти сигналы нижнего уровня легко смешиваются с информацией о смещении самого действия. Когда модель не может эффективно различать визуальные изменения, связанные с действием, и несвязанные с ним, это повлияет на качество извлеченного представления.

3.4 Эксперимент LAM 消融
Чтобы исследовать конфигурацию ключевых параметров эффективного представления скрытых действий, в эксперименте на основе структуры LAPA-DINOv3 был проведен анализ таких факторов, как размер кода, длина последовательности, размерность скрытого пространства и скорость обучения, а путь производительности показан на следующем рисунке.

В целом, при определенных условиях данных настройка размера кода, длины последовательности, размера скрытого пространства, скорости обучения и т. д. может эффективно повысить производительность представления действия. Среди них увеличение длины последовательности и размера скрытого пространства в разумных пределах способствует повышению производительности, а размер кода находится в оптимальной области, а не даже больше.
04 Стоимость и прогноз LARYBench
LARYBank как обобщение действия и робот управления скрытыми действиями.
- Он предоставляет набор связанных, перекрестных, многочастичных стандартов оценки. Отделяя качество представления движения от стратегии, LARYBench позволяет исследователям независимо измерять способность общего представления движения, ускоряя предварительное обучение человеческого видео на основе ATA в направлении обобщения.
- Это выявило истинную границу возможностей и направление улучшения текущей модели скрытых действий. Общая визуальная базовая модель обычно превосходит специализированную LAM в понимании языка и точности управления, что указывает на то, что эффективное представление действий может естественным образом возникнуть в ходе крупномасштабной предварительной визуальной тренировки, тогда как специализированная LAM может быть ограничена в масштабе данных или ограничена контролем низкого уровня в определенных областях и сталкивается с риском коллапса представления. Это открытие обеспечивает четкую справочную систему для последующего проектирования моделей.
- Он подтвердил ценность масштабирования видеоданных человека при обучении представлению действий. Результаты экспериментов показывают, что универсальный зрительный кодер не нуждается в контроле за видимыми действиями, поэтому им может управлять человек. 、межсценический язык действий. Это открытие показывает, что вместо того, чтобы создавать пространство действий с нуля на скудных данных аннотаций роботов, лучше в полной мере использовать человеческие видеоресурсы интернет-масштаба — через скрытое представление действий из Китая (提堖中提堖中提堬), а затем согласовать стратегию управления с существующим пространством функций 鲁棒 модели общего зрения.
我们已将 Набор оценочных данных LARYBench и соответствующие коды с открытым исходным кодом, постоянное обслуживание и обновление:
开源链:
欢迎礼天天天下载与电影下载, обратная связь и вклад, 天同全电影解表征电影电影система
| Следуйте 「美团报电机」微信公式号(meituantech), читайте больше о технологиях 干货!
| Этот текст от технической команды, авторство предназначено для некоммерческих целей. Добро пожаловать на передачу или использование этого контента для обмена.