Создание набора данных из Интернета с нуля очень утомляет. Сценарии, зашумленные данные и длительная предварительная обработка являются нормой. Вот почему вместе с Джереми Ховардом мы создали блокнот google_images_dataset, который позволяет легко загружать изображения из Google, не нарушая Условия использования.

В записной книжке есть пошаговые инструкции и код, чтобы легко загрузить изображения для каждой категории, а затем обучить модель с помощью библиотеки fast.ai. Это полезно, но мы увидели, что данные в Интернете были действительно зашумленными (неудивительно!), И это отрицательно сказалось на производительности наших моделей.

Имея это в виду, Зак Касерес и Джейсон Хендрикс из исследовательской группы fast.ai SF разработали средство очистки изображений, которое позволяет пользователю удалять изображения, не принадлежащие набору данных, и изменять метки для тех, которые имеют неправильную маркировку.

Тем временем я разработал детектор дубликатов, который позволяет вам легко сравнивать наиболее похожие изображения в вашем наборе данных и удалять те, которые на самом деле являются дубликатами.

Вы можете найти блокнот для создания вашего набора данных в моем репо здесь и блокнот для очистки вашего набора данных здесь. Обратите внимание, что вам нужно сначала установить библиотеку fastai, чтобы иметь возможность запускать ее. Для начала осталось на одно оправдание меньше, чего вы ждете?