В первом блоге этой серии мы рассмотрели некоторые из наиболее интересных текущих вариантов использования Computer Vision и то, как они уже начинают приносить пользу нашей повседневной жизни, а также бизнесу. В этом блоге мы снова поговорили с некоторыми из команды, чтобы узнать больше о том, куда движется Computer Vision, и как можно использовать Google Cloud, чтобы все это произошло!

Будущее компьютерного зрения

Большая часть будущего использования Computer Vision зависит от его большей доступности по мере того, как он становится более широко используемым; новые модели могут основываться на накопленных исследованиях и обучении и легче создавать инновационные варианты использования. Мы лишь поверхностно изучаем возможности Computer Vision, поэтому мы спросили некоторых членов команды о том, чего они ожидают в ближайшем будущем:

В каком направлении, по вашему мнению, будет развиваться Computer Vision в ближайшие несколько лет?

  1. Демократизация

Кристель Сюй, бизнес-аналитик. Думаю, мы увидим демократизацию инструментов, которые специалисты по данным смогут использовать для разработки сложных вариантов использования. Так, например, то, что раньше требовало сотен строк кода и глубоких знаний, теперь может быть легко развернуто специалистом по данным с помощью AutoML или XGBoost. Я думаю, что в отношении Computer Vision многие инструменты станут более демократичными и более доступными для специалистов по данным, поэтому то, что раньше было новым, станет гораздо более распространенным. В ближайшие несколько лет мы увидим больше инструментов для упрощения моделирования вариантов использования. Мы уже начинаем видеть это сейчас с Vision AI и Document AI. Эти варианты использования в основном будут относиться к областям, которые повышают ценность бизнеса.

  1. Развертывание вариантов использования компьютерного зрения для сохранения конкурентоспособности

Тоби Липеде, старший специалист по данным: В некоторых отраслях необходимо сохранять конкурентное преимущество за счет использования компьютерного зрения. В таких отраслях, как производство, сельское хозяйство и других со сложными цепочками поставок, компании, которые не начнут использовать Computer Vision, довольно быстро потеряют способность конкурировать и не смогут масштабироваться так же быстро, как другие. Я определенно вижу, что в ближайшие пару лет он станет намного более стандартным.

  1. Улучшение оборудования

В настоящее время многие компании не осознают мощь аппаратного обеспечения, которое они используют более традиционными способами, или того, как применение простых установок Computer Vision может усилить моделирование, которое создает чрезвычайно выгодную ценность для их бизнеса.

Сельскохозяйственный сектор уже начал использовать несколько вариантов использования искусственного интеллекта и компьютерного зрения в таких областях, как обнаружение и мониторинг здоровья растений, посадка, прополка, сбор урожая и расширенный анализ погодных условий. Мы разработали подобную модель для Крокуса, которая способна классифицировать более 5000+ различных сортов растений менее чем за 30 секунд.

Применение Computer Vision в таких отраслях позволило бы использовать несколько возможных вариантов использования уже существующего оборудования, чтобы оказать более сильное влияние на бизнес. Например, Computer Vision позволит дополнять данные с помощью видеонаблюдения и спутниковых изображений.

Кристель Сюй: Я думаю, что одна из самых больших проблем, с которыми мы сталкиваемся с Computer Vision, заключается в том, что компании хотят участвовать, но не всегда имеют камеры или нужные данные. Это одна из причин, по которой крупные фабрики и обрабатывающая промышленность, например, могут ускорить сценарии использования Computer Vision, потому что часто у них уже есть камеры и зрелые изображения, видео и данные IoT. Многим компаниям нужна помощь не только в определении вариантов использования, но и в советах по оптимальным подходам к быстрому и экономичному сбору данных, что в конечном итоге создает значимые варианты использования со стратегическим влиянием на бизнес. Это то, над чем мы работали с нашими клиентами в Datatonic.

Развертывание на периферии

Мэтт Гела, старший специалист по данным: Одна из интересных тенденций заключается в том, что модели компьютерного зрения будут все больше и больше развертываться на периферийных устройствах, а это означает, что мы можем захватывать и обрабатывать изображения практически в реальном времени. время, без подключения к облаку при составлении прогнозов. Это позволяет Computer Vision выполнять задачи, требующие немедленных действий, что значительно расширяет возможности его использования в таких областях, как безопасность производства.

Пограничные вычисления приближают вычисления и хранение данных к устройствам, на которых они собираются, вместо того, чтобы полагаться на центральное расположение. Одним из значительных преимуществ этого является повышенная скорость моделей машинного обучения.

Кристель Сюй: «На грани» означает возможность использовать машинное обучение на месте пользователя. Например, я могу использовать Computer Vision на своем телефоне или ноутбуке, который работает намного быстрее, а также обеспечивает конфиденциальность пользователя. Я думаю, часть моего волнения заключается в том, что мы достигли точки, когда это стало гораздо более распространенным явлением.

Одним из примеров этого является Google Lens, который позволяет вам использовать оптическое распознавание символов на вашем мобильном телефоне. Это можно использовать для функций мгновенного поиска, а также для перевода:

Использование существующих моделей

Будущее Computer Vision также, вероятно, увидит, как мы улучшаем существующие типы моделей для аналогичных вариантов использования, с которыми мы начинаем экспериментировать:

Алекс Томас: Я думаю, что в ближайшие несколько лет генерация текста в изображение будет все чаще использоваться. Это первые дни для этой техники, и я вижу, что со временем она становится лучше и расширяется. Возможно, в будущем мы сможем даже создавать 3D-объекты, просто набрав текст.

Ожидается, что Computer Vision будет развиваться во многих отношениях, опираясь на существующую работу. Некоторыми из наиболее значимых и универсальных разработок в ближайшие несколько лет будут:

  • Модели, которые требуют меньшего количества точек данных для обучения, прежде чем они будут готовы к развертыванию, что значительно сокращает время и затраты на обучение.
  • Возможность применять предварительно обученные модели к другим вариантам использования; это число будет расти в геометрической прогрессии по мере разработки новых моделей и выполнения дополнительных работ, связанных с компьютерным зрением.
  • Модели, которые включают появляющиеся типы изображений, что позволяет нам работать в трех измерениях. Это включает в себя компьютерное зрение, которое может включать другие функции, такие как глубина и плотность.

Кроме того, более быстрая и простая разработка лучших моделей поможет агрегировать модели. Имея несколько моделей в одном месте, мы можем объединить их и создать модель склонности, поддерживаемую масштабируемой архитектурой (MLOps) с конвейерами, которые могут поддерживать несколько сложных моделей. Это также позволит унифицировать данные через хранилище данных. Чтобы узнать больше о MLOps, ознакомьтесь с некоторыми из наших тематических исследований или ознакомьтесь с нашим недавним вебинаром MLOps 101 о том, как начать масштабное машинное обучение.

Мультимодальные модели

Мы стремимся к более широкому внедрению мультимодальных моделей — моделей компьютерного зрения с добавлением различных наборов данных. Это можно сделать, объединив данные из различных моделей или разработав единую модель с настраиваемой архитектурой, что позволяет нам создавать модели, использующие комбинацию входных данных, таких как изображение, текст и звук. Эти модели особенно эффективно в ситуациях, когда нам нужно принять решение на основе нескольких различных типов входных данных, таких как просмотр и анализ доказательств в судебных делах.

Это уже разрабатывается с помощью визуального ответа на вопросы (VQA), задачи компьютерного зрения, когда системе задаются текстовые вопросы об изображении, и она может вывести ответ.

Например, вы можете ввести «Что это за вид спорта?», и обученная компьютерная модель подскажет вам, что это Формула 1. В качестве альтернативы вы можете запросить основной цвет автомобиля спереди (оранжевый). Хотя эти примеры кажутся относительно простыми, они требуют от нашей модели комплексного понимания как изображения, так и языка, и есть несколько потенциальных вариантов использования в реальной жизни.

Интеграция моделей компьютерного зрения

Модели компьютерного зрения не следует рассматривать как изолированные от более традиционных данных, используемых в бизнесе. Их можно использовать для использования ранее разрозненных точек данных и интеграции их в современные стеки данных или мультимодельные архитектуры для создания значительной общей ценности для бизнеса.

Изображения часто сопровождаются текстом или метаданными, которые можно комбинировать с помощью связанного моделирования, чтобы получить более обоснованный и мощный результат. Модели компьютерного зрения, обнаруживающие аномалии в заводском цеху, можно комбинировать с другими данными испытаний, чтобы определить влияние дефекта или несоответствия продукта (например, выявление трещин с помощью компьютерного зрения в сочетании с вибрацией движущихся частей, натяжением винтов). , или частота звука, издаваемого во время тестирования).

Интернет вещей (IoT)

Интернет вещей описывает физические объекты с датчиками, возможностями обработки, программным обеспечением или другими технологиями, которые соединяют и обмениваются данными с другими устройствами и системами через Интернет или другие сети связи. По мере того, как технология становится более продвинутой, Computer Vision, вероятно, будет использоваться в большем количестве устройств, составляющих IoT.

Кристель Сюй: Интернет вещей (IoT) мне интересен. Что касается Computer Vision, я с нетерпением жду повышения доступности, отказоустойчивости и скорости, которые станут возможными благодаря усовершенствованию технологии, особенно по мере ее развития. У нас уже может быть много устройств IoT в наших домах, но меня интересуют варианты использования, которые начинают существовать по мере развития этой технологии. Кроме того, с точки зрения бизнеса производители смогут создавать новые продукты с отличительными чертами, что позволит им развивать свой бизнес. Компания может установить партнерские отношения с Google, и в конечном итоге клиенты будут в восторге, потому что смогут воспользоваться преимуществами инновационных продуктов.

Интернет вещей уже включает в себя такие устройства, как Google Home, а также носимые смарт-часы. Компьютерное зрение, вероятно, будет играть более важную роль в IoT в течение следующих нескольких лет с такими устройствами, как домашние системы безопасности следующего поколения, которые используют модели компьютерного зрения, включая распознавание лиц и распознавание действий.

Распознавание лиц — сопоставление лиц с личностью. Обычно используется для: приложений безопасности, допускающих людей в зоны ограниченного доступа, разблокировки смартфонов.

Компьютерное зрение и подписи к изображениям

Софи Верревэре, старший специалист по обработке и анализу данных: Мне бы хотелось, чтобы люди с нарушениями зрения чаще использовали компьютерное зрение для интерпретацииобъектов в их окружении. . Следующим рубежом для технологий Computer Vision может стать приобретение и использование визуального здравого смысла, чтобы машины могли выйти за рамки простого определения типов объектов в данных изображения. Затем компьютерное зрение можно было бы использовать для ответа на более сложные вопросы, например, кто что делает и по какой причине?

Подписи к изображениям — автоматическое создание описательных подписей к изображениям и видео. Обычно используется для:
+ описания визуальных средств для людей с нарушениями зрения
+ обобщения и определения ключевых моментов в видео.

Такие проекты, как Google Получить описания изображений от Google, прошли долгий путь в области функций автоматического описания изображений. Это программное обеспечение использует Computer Vision для создания описаний изображений без замещающего текста.

Компьютерное зрение используется множеством способов для помощи людям с нарушениями зрения. Исследование одного варианта использования показало, что люди, использующие длинную трость или собаку-поводыря, смогли уменьшить количество столкновений на 37 процентов с помощью носимого компьютерного зрения. Пользователь носит камеру и два браслета, которые вибрируют, когда камера обнаруживает потенциальное предстоящее столкновение, побуждая пользователя остановиться и изменить направление.

В течение следующих нескольких лет тенденции предполагают, что разработки в области компьютерного зрения и носимых технологий станут еще более ценными в случаях использования, направленных на помощь людям с нарушениями зрения.

Масштабирование компьютерного зрения

Как упоминалось ранее, мы все еще находимся на этапе «эксплуатации» приложений Computer Vision в отрасли. Модели разрабатываются, но во многих случаях они еще не применяются в больших масштабах. На это есть несколько причин:

  • Поначалу с данными изображения и видео может быть сложно работать; они могут занимать больше места, чем некоторые другие типы данных, и иметь разные форматы.
  • Компании не осознают ценность этих данных; они знают, что их электронные таблицы и таблицы имеют ценность, но не обязательно изображения и видеоданные, которые они собирают.
  • Компьютерное зрение иногда может быть более дорогостоящим, чем «стандартные» модели машинного обучения, и иногда требует более высоких первоначальных инвестиций.

Однако развертывание эффективных моделей компьютерного зрения может обеспечить огромный возврат инвестиций (ROI). Компьютерное зрение можно использовать для автоматизации многих задач, что приводит к более низким эксплуатационным расходам и меньшему объему ручного труда для менее сложных задач. Его также можно использовать для поиска менее дорогих решений проблем, часто путем простой интеграции Computer Vision в существующее оборудование, чтобы исключить необходимость ручного мониторинга. Чем раньше компании инвестируют в Computer Vision, тем быстрее они смогут извлечь выгоду из этих долгосрочных преимуществ!

Использование облака Google

Препятствия на пути разработки и производства эффективных моделей Computer Vision можно преодолеть с помощью Google Cloud и его различных приложений и сервисов.

Зачем использовать Google Cloud? Какие полезные инструменты доступны?

Алекс Томас: Многие люди говорят о важном инструменте, особенно для Computer Vision, — это AutoML от Google Cloud. В настоящее время вы можете использовать его для обнаружения объектов и классификации изображений. Разработать решение относительно просто, так как вам не нужно использовать какое-либо кодирование или глубоко разбираться в машинном обучении, чтобы начать работу. В последнем проекте, над которым я работал, мы использовали AutoML, и нам было легко повторять и улучшать нашу модель на протяжении всего проекта. Мы могли бы обучить модель, быстро посмотреть, как она работает, настроить изображения, а затем сгенерировать улучшенную модель. Я думаю, что это серебряная пуля, которую Google Cloud имеет над многими своими конкурентами…

… Google также создал платформу под названием TensorFlow, которая является ключевой частью программного обеспечения, используемого для создания нейронных сетей для работы Computer Vision. Многие облачные сервисы Google хорошо связаны с TensorFlow. Если вы создали что-то действительно передовое, его проще развернуть с помощью Google Cloud и получить доступ к нему, чем с другими платформами. Вы можете развернуть высокотехнологичную модель, написав всего несколько строк кода.

Возможность начать работу с моделями машинного обучения, не требуя большого опыта программирования, делает его намного более доступным для бизнеса, значительно сокращая время и затраты на разработку и развертывание модели.

Тоби Липеде. Ранее я работал с другими поставщиками облачных услуг. Я думаю, Google Cloud отличает простота начала работы. Такие простые вещи, как настройка среды ноутбука в Google Cloud, могут быть выполнены без значительных накладных расходов DevOps/SRE. Их иерархическая модель разрешений проста для понимания при сохранении безопасности. Перейти от записной книжки к рабочей среде также легко — интеграция между рабочей средой (Vertex AI), BigQuery, хранилищем функций и конечными точками работает очень хорошо.

В Google Cloud есть много отличных API, созданных на основе передовых исследований Google, которые позволят клиентам внедрять функции Computer Vision с легкостью и с большой выгодой. —Дэниел Мискелл, инженер по машинному обучению

Кристель Сюй: Я думаю, Google Cloud пытается выделиться в пространстве машинного обучения с помощью таких инструментов, как Вершинный ИИ. С Computer Vision в Google Cloud через AutoML доступно множество функций, позволяющих использовать такие инструменты, как Vision AI и Document AI. Это инструменты быстрой перемотки вперед, использующие трансферное обучение; большая часть глубокого обучения уже сделана, и все, что вам нужно сделать, это обучить его своим данным, и внезапно у вас есть мощь Google Cloud, которую вы можете применить к своему бизнес-варианту.

Функции и услуги, предоставляемые Google, по-прежнему будут способствовать быстрому развитию захватывающих разработок в области компьютерного зрения и вариантов использования, обсуждаемых в этом блоге. В следующем блоге этой серии вы узнаете, как настроить собственную модель обнаружения объектов с помощью AutoML Vertex AI без единой строки кода!

Дататоник, четырехкратный партнер года Google по облачным технологиям, обладает богатым опытом в области компьютерного зрения, машинного обучения и ряда продуктов и услуг Google. Свяжитесь с нами, чтобы узнать, какие преимущества может принести вашему бизнесу компьютерное зрение или другие модели машинного обучения.

Соавторы: Кристель Сюй, бизнес-аналитик, Тоби Липеде, старший специалист по данным, Мэтт Гела, старший специалист по данным, Алекс Томас, старший специалист по данным, Софи Верревэр, старший специалист по данным, Дэниел Мискелл, инженер по машинному обучению