Вы закончили буткемп по науке о данных и хотите показать свои первые проекты. Вы использовали наборы данных Kaggle, но интервьюеры не впечатлены.

Вы говорите: «Но все используют Kaggle, так почему бы и мне?»?
Причина в том, что интервьюеры видели слишком много проектов, основанных на Kaggle.

Фактически, использование Kaggle может фактически предотвратить ваши проекты выделяются среди остальных. Интервьюеры просто не могут понять, чем вы отличаетесь от других сотен кандидатов на работу, стремящихся занять эту первую должность в сфере машинного обучения.

Ответ заключается в том, чтобы иметь подход, который сделает вас, ваше портфолио и ваш проект уникальными.

Итак, как вы это делаете?

  1. Найдите одно из своих настоящих увлечений или даже хобби.
    У каждого что-то есть, даже если он этого не осознает. Что-то, что вам нравится или о чем вы мечтаете. Застрявший? Вот список из Википедии.
    https://en.wikipedia.org/wiki/List_of_hobbies.
  2. Подумайте о важной для вас области/навыке обработки данных. Может быть, это область в наборе вакансий, на которые вы претендуете… например, NLP, Computer Vision или TimeSeries. Или, возможно, вы хотите расширить свои навыки в области науки о данных с помощью других методов.
  3. Подумайте об аспектах данных выбранной вами страсти/хобби
    , если вы создавали набор данных, чтобы провести некоторый анализ или найти ответ на вопрос/или гипотезу. Возьмем в качестве примера одно из моих увлечений — уличную фотографию. Мои 8000 фотографий Торонто и Лондона — отличный ресурс для демонстрации моих знаний о кластеризации, GAN, распознавании изображений, обработке больших данных, выбросах и многом другом. Или другой пример, бейсбол и огромное количество статистики, социальных сетей, видео и изображений.
  4. Создайте свой уникальный проект на основе пунктов 1, 2 и 3
    В идеале вы должны отвечать на деловой или социальный вопрос.
    Однако тот факт, что это касается ВАШЕЙ страсти/хобби, будет поддерживать ваш интерес и мотивацию. Процесс создания собственного набора(ов) данных будет стимулировать вас к использованию этих навыков подготовки данных/EDA. Конечно, вы можете дополнить свой собственный набор данных внешними источниками данных (даже из Kaggle), но ключевым моментом здесь является то, что ваши данные и проект будут уникальными.
  5. Подумайте о важных вопросах, на которые нужно ответить
    Опять же, прелесть этого подхода в том, что вы можете решить вопрос.
    Например, я создал проект, основанный на парковочных билетах с открытыми данными города Торонто, выданных за 10-летний период. Данные идеально подходили для анализа временных рядов в сочетании с географическими аспектами. Но я решил сделать его более интересным, дополнив свои наборы данных высоко детализированными социально-экономическими данными и задав вопрос: «Выдаются ли парковочные талоны в социально неблагополучных районах города чаще, чем в других, в одно и то же время суток?»

И не забывайте, когда вы создаете это портфолио, постарайтесь сделать его интересным.