Для специалиста по данным нет ничего более приятного, чем погрузиться вглубь и начать строить модель. Однако, если вы хотите, чтобы модель оказала максимальное воздействие, вы должны выполнить эти пять вещей еще до начала проекта. В обратном порядке:

5️⃣ Поговорите с командой инженеров, чтобы понять, как модель будет интегрирована, как в восходящем направлении (входные данные), так и в нисходящем направлении (вывод). Вывести файл CSV в корзину очень легко. С другой стороны, API потребует дополнительной инфраструктуры (а также спецификаций, документации и тестирования). Убедитесь, что ожидания обеих команд совпадают, чтобы избежать потрясений.

4️⃣ Поговорите с менеджером по продукту, чтобы узнать ожидаемые сроки.
Если проект необходимо реализовать в короткие сроки, запуск с «быстрой и грязной» модели может просто выиграть вам достаточно времени. для подтверждения проблемы и, при необходимости, улучшения модели после первоначальной даты запуска.

3️⃣ Проведите исследовательский анализ данных. Поймите их ограничения. Удалите все сильно коррелированные столбцы данных. Устраните недостающие данные и выбросы. Создание схемы проверки на раннем этапе избавит вас от многих головных болей в дальнейшем.

2️⃣Поговорите с потенциальными пользователями, чтобы понять, как они собираются использовать модель, включая частоту обновлений (если это вообще необходимо). Например, полностью автоматизированная система принятия решений потребует более тщательного изучения, чем система поддержки принятия решений, которая работает рядом с пользователем-человеком. Это необходимо учитывать при определении объема и сроков реализации проекта.

1️⃣ Прислушивайтесь к экспертам в данной области, чтобы понять проблему и узнать, исходя из их опыта, что может повлиять на прогнозируемый результат. Проведите быстрый аудит, чтобы убедиться, что у вас есть доступ к необходимым данным.

Потратив некоторое время на выполнение этих пяти шагов, вы предотвратите множество ошибок и сэкономите свое время. Выполните эти пять шагов, чтобы не создать модель, которая ни к чему не приведет или не даст неправильный результат.

Я пишу об аналитике данных в бизнесе. Следуйте за мной, если хотите видеть больше подобного контента.