Взгляд изнутри на граничные вычисления с поддержкой голоса и компьютерное зрение

Салил Авсаре, Synaptics

Это время года снова для большой конференции IBC в Амстердаме, и мы были очень рады встретиться с нашими ключевыми клиентами и поставщиками услуг, которые доставляют все замечательные развлечения в наши умные гостиные и умные устройства. Это отличное шоу для Synaptics, потому что оно объединяет под одной крышей почти всех наших партнеров в мире потокового мультимедиа, чтобы мы могли сотрудничать в текущих и будущих проектах. Это также отличный способ для нас продемонстрировать наши идеи о том, как они могут предоставить новый и полезный пользовательский опыт для потребителей своих услуг.

Большая часть нашей презентации будет посвящена нашим SoC для периферийных вычислений в умном доме с упором на полезные методы машинного обучения, которые обеспечивают как удобство для пользователя, так и потенциальные новые потоки доходов для поставщиков услуг. Мы называем это Smart Edge AI, и в нем задействованы наши мощные SoC с ускорителями нейронных сетей в сочетании с интеллектуальным компьютерным зрением и обработкой голоса. Я думаю, что одним из величайших аспектов граничных вычислений является возможность работать с устройствами как с облачным подключением к Интернету, так и без него. Это не только обеспечивает повышенную конфиденциальность и безопасность пользователей, но также обеспечивает стабильную и надежную работу.

Давайте перейдем к тому, что я считаю самой крутой демонстрацией, которую мы проводили на IBC.

Идентификация по голосу
Теперь большинству из нас удобно разговаривать вслух с компьютерами и получать обратную связь от голосовых помощников. Synaptics является ведущим мировым поставщиком голосовых технологий дальнего действия для таких продуктов, как умные колонки и другие устройства для умного дома. Поэтому мы взяли эту технологию и интегрировали ее в наши SoC для периферийных вычислений, а в данном случае поместили голос в устройство потоковой передачи мультимедиа для телевизоров. Теперь представьте, что вы разговариваете с телевизором, и он распознает ваш голос. Вам даже не нужно регистрировать свой голос, он просто отличает ваш голос от других голосов с помощью биометрической информации. Теперь, когда медиа-стример знает, кто говорит, он может предоставить меню персонализированных предпочтений контента на основе истории пользователей. То же самое, если в комнате был другой человек. Круто прямо! И все это делается на краю в уединении вашего дома. Вы можете заценить это видео и увидеть его в действии.

Идентификация лица
Идентификация лица очень похожа на голосовую идентификацию, но на этот раз с использованием камеры и интеллекта компьютерного зрения. На этот раз устройство распознает ваше лицо и предоставляет предпочтительный контент, аналогичный тому, что я описал для идентификации по голосу. Вы любите спорт, ваш супруг любит загадки, это все решается в зависимости от того, кто перед камерой. Но что, если вы вместе смотрите телевизор? Что ж, он также определяет это с помощью машинного обучения и отображает меню контента, связанное с программами, которые вы обычно смотрите вместе. Объедините все это с голосовой связью, и вы получите мощный способ обеспечить удобство для пользователей. Посмотрите наше демо-видео по идентификации лица здесь.

Обнаружение логотипа
Еще одна демонстрация компьютерного зрения, которую мы показываем, не связана с камерами. На этот раз наша технология Smart Edge AI видит то, что воспроизводится на телевизоре. Он может распознавать определенный контент, например, логотип BMW или CNN, с точностью 99%. Если поставщик услуг знает, что предпочитают смотреть его клиенты, он может предоставлять рекомендуемый контент, например платные фильмы. Это, конечно, отличный способ повысить монетизацию для поставщиков услуг, но он также обеспечивает лучший пользовательский опыт. Они также могли бы предоставлять узконаправленную рекламу с масштабируемой стоимостью. Вы можете увидеть, как мы делаем это в видео-демонстрации здесь.

Обнаружение событий
Подобно обнаружению логотипов, мы можем использовать машинное обучение для обнаружения разнообразного контента. Возьмем, к примеру, бейсбольный матч. Я много смотрю бейсбол, но у меня нет времени на несколько трехчасовых игр. Мы решили эту проблему и создали возможность смотреть несколько игр за короткое время. Мы обучили устройство искать питчи, и с помощью машинного обучения все питчи отмечаются на временной шкале игры. Теперь я могу просто переходить к каждому питчу и одновременно наблюдать за всеми волнениями трех игр. Вы можете считать это своим личным спортивным репортажем. Этот пример является большим преимуществом для любого медиастримера, и поставщики услуг могут продать больше устройств. Посмотрите, как мы это делаем здесь в короткой видео-демонстрации.