1. Оптимизация 2D-представления позы: повышение точности, стабильности и универсальности в неконтролируемой 2D-3D-оценке позы человека (arXiv)

Автор: Питер Харди, Сринандан Дасмахапатра, Хансунг Ким.

Аннотация: В этой статье рассматривается проблема представления 2D-позы во время неконтролируемого преобразования 2D-позы в 3D для повышения точности, стабильности и универсальности 3D-моделей оценки позы человека (HPE). Все неконтролируемые подходы 2D-3D HPE предоставляют модели полный 2D-кинематический скелет во время обучения. Мы утверждаем, что это неоптимально и разрушительно, поскольку во время обучения индуцируются долгосрочные корреляции между независимыми ключевыми точками 2D и прогнозируемыми ординатами 3D. С этой целью проведем следующее исследование. При максимальной емкости архитектуры в 6 остаточных блоков мы оцениваем производительность 5 моделей, каждая из которых по-разному представляет 2D-позу во время состязательного неконтролируемого процесса 2D-3D HPE. Кроме того, мы показываем корреляции между ключевыми точками 2D, которые были изучены в процессе обучения, выделяя неинтуитивные корреляции, возникающие, когда полная 2D-поза предоставляется модели подъема. Наши результаты показывают, что наиболее оптимальным представлением 2D-позы является представление двух независимых сегментов, туловища и ног, без каких-либо общих функций между каждой подъемной сетью. Этот подход уменьшил среднюю ошибку на 20% в наборе данных Human3.6M по сравнению с моделью с почти идентичным количеством параметров, обученной на всем двухмерном кинематическом скелете. Кроме того, из-за сложной природы состязательного обучения мы показываем, как это представление может также улучшить сходимость во время обучения, позволяя чаще получать оптимальный результат.

2. Jointformer: однокадровый подъемный преобразователь с прогнозированием ошибок и уточнением для оценки позы человека в 3D (arXiv)

Автор: Себастьян Лутц, Ричард Блитман, Кустав Госал, Мэттью Мойнихан, Киаран Симмс, Альоса Смолич.

Аннотация: Технологии монокулярной 3D-оценки позы человека могут значительно увеличить доступность данных о движении человека. В наиболее эффективных моделях для 2D-3D-лифтинга с одним изображением используются графовые сверточные сети (GCN), которые обычно требуют некоторого ручного ввода для определения взаимосвязей между различными суставами тела. Мы предлагаем новый подход, основанный на преобразовании, который использует более общий механизм внутреннего внимания для изучения этих отношений в последовательности маркеров, представляющих суставы. Мы обнаружили, что использование промежуточного контроля, а также остаточных соединений между сложенными кодировщиками повышает производительность. Мы также предполагаем, что использование прогнозирования ошибок как части многозадачной среды обучения повышает производительность, позволяя сети компенсировать свой уровень достоверности. Мы проводим обширные исследования абляции, чтобы показать, что каждый из наших вкладов увеличивает производительность. Кроме того, мы показываем, что наш подход с большим отрывом превосходит современный уровень техники для однокадровой 3D-оценки позы человека. Наш код и обученные модели размещены в открытом доступе на Github.