Ученый искусственного интеллекта: продвижение полу-контролируемого обучения с неконтролируемым увеличением данных (UDA)

Это резюме исследования - лишь одно из многих, которые еженедельно распространяются в информационном бюллетене для ученых в области ИИ. Чтобы начать получать еженедельную рассылку, зарегистрируйтесь здесь.

Помимо сверхмощного вычислительного оборудования и усовершенствований алгоритмов, успех глубокого обучения также зависит от доступности массивных маркированных наборов данных.

Но мы знаем, что иногда помеченные данные нигде не найти, и именно здесь подходы к увеличению данных спасают положение. К сожалению, увеличение данных в основном ограничивается контролируемым обучением, когда аннотации требуются для перехода от исходных примеров к расширенным.

Расширение неконтролируемых данных (UDA) для более эффективного и последовательного обучения без учителя

В недавней статье исследователи Google AI продемонстрировали, что увеличение данных также может применяться к немаркированным данным, чтобы продвигать полу-контролируемое обучение. Их подход, так называемое неконтролируемое увеличение данных или UDA, улучшает предсказания модели, чтобы они были согласованными между немеченой выборкой и расширенной немаркированной выборкой.

По оценке UDA показывает выдающиеся результаты. Например, в наборе данных классификации текста IMDb UDA достигает коэффициента ошибок 4,20 только с 20 помеченными образцами, что превосходит обычные модели, обученные на 25000 помеченных образцах.

В стандартных тестах CIFAR-10 и SVHN для полууправляемого обучения UDA превосходит все предыдущие методы и достигает уровня ошибок 2,7% на CIFAR-10 всего с 4000 образцов и коэффициентом ошибок 2,85% на SVHN только с 250 образцами, что почти соответствует производительность моделей, обученных на полных наборах, которые на один или два порядка больше.

UDA также хорошо работает с крупномасштабными наборами данных, такими как ImageNet. При тренировке с 10% от указанного набора, UDA улучшает точность топ-1 / топ-5 с 55,1 / 77,3% до 68,7 / 88,5%. Для полной ImageNet с 1,3 млн дополнительных немаркированных данных UDA дополнительно увеличивает производительность с 78,3 / 94,4% до 79,0 / 94,5%.

Возможное использование и эффекты

Эта работа демонстрирует, что увеличение данных может быть применено для улучшения частично контролируемого обучения. Предлагаемый подход чрезвычайно эффективен, когда данных для полууправляемого обучения не хватает. Кроме того, даже с крупномасштабными данными UDA также обеспечивает устойчивый выигрыш.

Чтобы избежать переобучения UDA, исследователи предлагают метод под названием TSA, когда имеется много немаркированных данных. Будем надеяться, что UDA поможет продвинуть вперед прогресс в полуавтоматическом обучении, которое, как оказалось, не уступает и на удивление превосходит контролируемое обучение с небольшим увеличением объема данных.

Код общедоступен здесь.

Подробнее: https://ai.googleblog.com/2019/07/advancing-semi-supervised-learning-with.html

Спасибо за прочтение. Прокомментируйте, поделитесь и не забудьте подписаться на нашу еженедельную рассылку, чтобы получать самые свежие и интересные исследования! Вы также можете подписаться на меня в Twitter и LinkedIn. Не забудьте 👏, если вам понравилась эта статья. Ваше здоровье!