Улучшение взаимодействия в Zoom с помощью машинного обучения

За последние полтора месяца я работал над проектом по оцифровке опыта, который происходил только лично в течение 10 лет. Из-за этого я наблюдал за МНОЖЕСТВОМ онлайн-встреч в Zoom.

Одной из интересных функций Zoom является то, что у него есть несколько небольших кнопок, которые участники могут нажимать, чтобы взаимодействовать с докладчиком. Zoom называет это невербальной обратной связью, но если вы проверите документацию Zoom по этому поводу, вы, вероятно, откажетесь от использования этой функции, даже не попробовав (что верно почти для всей документации Zoom, но я отвлекся).

Участники собрания Zoom могут щелкнуть по этим кнопкам, чтобы виртуально поднять руку, сказать «да» или «нет» и т. Д. Эти кнопки хороши тем, что докладчик будет видеть рядом с именами участников, какой параметр они нажали, и этот визуальный элемент. обратная связь будет оставаться там, пока либо участник, либо присутствующий не решат очистить. Это означает, что ведущие могут видеть, кто поднял руку, даже если они не видят этого человека на видео в данный момент, и это очень полезно, когда вы находитесь на большом онлайн-собрании, на котором вы не видите всех одновременно. .

Таким образом, наличие этого визуального способа показать, кто хочет что-то спросить или ответить, - хорошая функция для докладчиков. И это также удобно для студентов, потому что им не нужно устно перебивать докладчика или держать руку в воздухе, пока ведущий это не увидит.

Но одна из вещей, которые я заметил, посещая собрания Zoom, заключается в том, что, когда докладчик задает вопрос участникам, они делают жесты на камеру руками вместо использования невербальных кнопок обратной связи, даже когда докладчик явно просит их использовать эти кнопки.

Я понял, что Zoom просит участников сделать для них что-то неестественное: нажимать на кнопки, чтобы передать идеи, которые они всю жизнь выражали языком тела.

Поскольку на удаленной встрече все уже находятся перед камерой, почему бы не воспользоваться ее полным потенциалом? Я хотел посмотреть, можно ли использовать жесты рук для активации невербальной обратной связи вместо нажатия кнопки, чтобы взаимодействие было более естественным. Таким образом, участники могут передавать быстрые сообщения руками, как они привыкли, а докладчики по-прежнему будут иметь доступ к списку невербальных отзывов рядом с именами участников. Так…

Как мы можем облегчить взаимодействие участников и докладчиков в цифровой среде, сохраняя при этом знакомые им ментальные модели?

Войдите в машинное обучение.

Я начинаю с быстрого прототипирования с помощью Wekinator и Processing, чтобы проверить, насколько надежным будет обнаружение. Wekinator - это простое программное обеспечение, в котором вы можете тренировать свою собственную модель машинного обучения и интегрировать ввод и вывод из различных инструментов (включая физические, такие как Arduino; это довольно круто!).

Я быстро обучил модель на одном из примеров Wekinator и протестировал результат.

Из-за низкой плотности сетки обнаружение работало плохо, поэтому я увеличил плотность сетки, но быстро достиг вычислительного предела инструментов.

Поэтому я стал искать более быструю альтернативу и в итоге остановился на примере p5.js от Андреаса Рефсгаарда, у которого я изучил основы творческого машинного обучения в прошлом году в CIID. Код p5.js выполняет классификацию изображений с помощью извлечения признаков с помощью MobileNet, и после того, как я его обучил, он обеспечил точное обнаружение с высокой производительностью.

А теперь самое худшее: использование обученной модели для активации невербальной обратной связи во время встречи. Zoom не предназначался для взаимодействия с какими-либо инструментами машинного обучения, и я не знаю достаточно кода, чтобы взломать эту интеграцию. Итак, единственный способ, который я нашел для активации действий внутри Zoom, заключался в том, чтобы эти инструменты выполняли щелчки мышью внутри Zoom для активации кнопок (кстати, только действие Raise Hand имеет сочетание клавиш), например, используя класс Robot внутри Обработка.

Это решение создает огромное количество проблем, таких как необходимость всегда располагать кнопки в одном месте и поверх любого другого окна, и, очевидно, невозможно для чего-либо, кроме быстрого прототипа. Я считаю, что даже с этими ограничениями эти исследования, которые я провел за несколько часов, могут показать, насколько это проще, чем нажимать кнопки.

Одна из вещей, которые увеличивают нашу когнитивную нагрузку при удаленном сотрудничестве, - это необходимость заново учиться делать то, что мы раньше делали определенным образом, потому что они не работают в цифровой среде.

Я надеюсь, что команда Zoom работает над решением, используя камеру для активации невербальной обратной связи, потому что мне намного лучше поднять руку, чтобы задать вопрос или сказать «Да», так же, как я делал всю свою жизнь. .

Улучшение взаимодействия в Zoom с помощью машинного обучения

Вопросы по теме