"Начиная"

5 шагов к разработке уникальных идей проекта в области науки о данных

Руководство, которое поможет вам определить новые и уникальные проекты данных, которые стоят вашего времени.

Возможно, самая сложная часть любого проекта - это новая, но выполнимая идея. Вы легко можете попасть в ловушку кроличьей норы набора данных. Вы часами просматриваете существующие наборы данных и пытаетесь придумать новые интересные идеи. Но вот проблема с этим подходом: когда вы сосредотачиваетесь только на существующих наборах данных - на Kaggle, Google Datasets, FiveThirtyEight - вы ограничиваете свое творчество небольшим набором проблем, для которых был разработан этот набор данных.

Иногда мне нравится изучать набор данных, который мне кажется интересным. Одно миллионное повторение задачи прогнозирования Kaggle может принести пользу моему прогрессу в обучении. Но, как специалисты по данным, мы стремимся создать что-то новое и уникальное и получить полезную информацию.

Итак, как вы можете придумать новую идею? Я объединил идеи, полученные в результате исследования творческих способностей, с моим собственным опытом. В результате было задано 5 ключевых вопросов, включая примеры идей проектов. Эти вопросы направляют процесс создания идей и позволяют полностью раскрыть потенциал вашего творчества. Это приведет к появлению новых и уникальных идей для проектов в области науки о данных.

1. Почему я хочу начать проект?

Когда вы думаете о начале нового проекта, у вас есть намерение или цель. Почему вы вообще хотите заняться еще одним проектом в области науки о данных? Широкая категоризация вашей цели может помочь вам сосредоточить поиск идеи. Так что подумайте, хотите ли вы создать

  • портфельный проект, который можно показать потенциальным работодателям,
  • сообщение в блоге о таких вещах, как концепция, модель или исследовательский анализ данных,
  • проект, который позволяет вам отработать навык, например обработку естественного языка, визуализацию данных, обработку данных или определенный алгоритм машинного обучения,
  • или имеете ли вы в виду что-то совершенно другое.

2. Каковы мои области знаний и интересов?

Обдумать этот вопрос важно по трем основным причинам. Во-первых, вспомните диаграммы Венна в науке о данных. Знания в предметной области - это важный актив, которым должен обладать каждый специалист по данным. Вы можете решить проблемы с данными, только если вы также понимаете основную проблему. В противном случае вы реализуете алгоритмы, визуализации и создаете прогнозы, которые не имеют отношения к любому практикующему специалисту в этой области. И если ваша работа не будет иметь значения, зачем вам делать это в первое место?

Во-вторых, важно интересоваться идеей и набором данных, с которыми вы имеете дело. Вы же не хотите заставлять себя тратить свободное время на проект, который вам не интересен. Если вас интересует какая-то область, вам не нужно быть экспертом в этой области. Но вы должны быть готовы потратить время на дополнительные исследования и понять проблему, выходящую за рамки данных.

В-третьих, исследователи обнаружили, что введение ограничений в творческий процесс приводит к лучшим результатам. Это означает, что сосредоточение внимания на определенной области или комбинации областей дает лучшие результаты, чем попытки придумать идею без каких-либо ограничений в процессе поиска. Например, мои области интересов и опыта - это устойчивость, финансы, популярная культура и обработка естественного языка. Сосредоточение внимания на этих темах позволит мне использовать мои существующие знания при определении того, можно ли превратить вдохновение в исполняемую и новую идею.

3. Как мне найти вдохновение?

Самое важное, что вы можете сделать, чтобы найти вдохновение, - это прочитать. Различные источники могут помочь вам определить интересные темы в процессе генерации идей:

  • Новости, мнения, сообщения в блогах: анекдотические свидетельства в форме рассказа - отличный способ придумать идеи. WIRED опубликовал эту историю о политической предвзятости в функции автозаполнения Google. Вы можете использовать это, чтобы исследовать предвзятость в языковых моделях. Или вы можете выяснить, можно ли предсказать местоположение человека на основе поискового запроса, введенного в Google.
  • Научная литература: академические статьи очень часто содержат абзацы, в которых обсуждаются открытые исследовательские вопросы, связанные с исследуемой темой. В этой статье, представляющей языковую модель GPT-2 упоминается, что модель не работает лучше, чем случайная, для определенных задач, таких как ответы на вопросы, без точной настройки. Почему бы не написать что-нибудь о тонкостях доводки этой модели?
  • Сообщения по науке о данных. Просматривая сообщения в блогах, посвященные темам и проектам в области науки о данных, можно почерпнуть новые идеи. Я увидел это НЛП-исследование Офиса и сразу пожалел, что не придумал это первым. Но как насчет изучения другого телешоу? Или несколько фильмов для определения закономерностей? Вы можете использовать GPT-2 для написания сценариев вашего любимого телешоу.

Помимо чтения, будьте открыты в повседневной жизни для вдохновения. Каждый раз, когда вас что-то интересует, подумайте, можете ли вы ответить на этот вопрос с помощью данных. Например, я недавно наткнулся на трейлер телешоу The Boys и увидел много положительных отзывов на IMDb. Поэтому я спросил себя, есть ли подтвержденная тенденция, согласно которой популярные телешоу становятся более жестокими? Растет ли аудитория, которая любит жестокие шоу? Используйте эти моменты любопытства и исследуйте эти вопросы с помощью данных.

Какие у вас есть возможности для создания идей на основе приведенного выше вдохновения? Нейробиологи выделили три различных психологических процесса, связанных с генерацией идей:

  • Вы можете объединить существующие идеи и создать новый результат (комбинационное творчество) → Различные проекты анализировали листинги Airbnb, а другие анализировали рынок жилья. Объедините эти идеи, чтобы выяснить, увеличивает ли Airbnb цены на жилье в городе.
  • Вы можете изучить существующую идею и найти новые проблемы, которые нужно решить (исследовательское творчество). → Возьмите существующую дискуссию о учёных с университетским образованием или учёных-самоучек и выясните, кто из них более успешен.
  • Вы можете взять существующую идею и изменить в ней что-то, что полностью меняет ее правила или значение (трансформационное творчество) → Это самая редкая форма творчества, действующая за пределами установленного концептуального пространства. Это сложно понять и описать. Примером может служить то, что вместо того, чтобы предсказывать, что что-то произойдет, попытайтесь предсказать то, чего не произойдет.

4. Где я могу найти соответствующие данные?

Когда у вас есть общая тема, поищите данные, чтобы определить, как вы можете реализовать идею в проекте по науке о данных. Это очень важно для определения выполнимости вашей идеи. Рассмотрите существующие базы данных, а также данные, которые еще предстоит собрать и которые труднее найти:

  • Существующие источники наборов данных: Kaggle, Google Datasets, FiveThirtyEight, BuzzFeed, AWS, UCI Machine Learning Repository, data.world, Data.gov , и многое другое, что откроет быстрый поиск в Google.
  • Что использовали другие люди: выполните поиск по выбранной вами теме в Google и Google Scholar и посмотрите, исследовал ли кто-нибудь подобный вопрос. Какие данные они использовали? Наш мир в данных объединяет академические и неакадемические источники, о которых вы могли не знать.
  • Данные, которые будут собираться с помощью: парсинга веб-страниц, интеллектуального анализа текста, API-интерфейсов, отслеживания событий, сбора журналов.

Если вы не можете найти никаких данных, которые могли бы помочь вам в реализации идеи вашего проекта, перефразируйте их. Постарайтесь придумать идею, на которую можно ответить с помощью имеющихся у вас данных. В то же время спросите себя, почему нужные вам данные недоступны? Какая проблема находится в сфере вашего внимания и как ее можно решить? Ответы на эти вопросы могут привести к самостоятельному проекту в области науки о данных.

5. Могу ли я воплотить в жизнь свою финальную идею?

У вас есть фантастическая идея! Но возможно ли это? Кратко опишите процесс генерации идей. Подумайте о том, чего вы хотели достичь (вопрос 1), есть ли у вас интерес или опыт в этой области (вопрос 2) и есть ли у вас данные, необходимые (вопрос 4) для реализации идеи. Теперь вам нужно определить, достаточно ли у вас навыков для реализации этого проекта и достижения поставленной цели.

Важным фактором, который следует учитывать, является время, которое вы готовы потратить на этот конкретный проект. Вы не хотите защищать докторскую диссертацию. по этой теме. Таким образом, ваш окончательный проект может быть лишь частью вашей идеи, или это может быть обучение навыкам, необходимым для реализации вашей идеи в будущем. В конце этого процесса генерации идей должен быть исследовательский вопрос, на который вы можете и хотите ответить за то время, которое вы готовы потратить на это для достижения своей цели.

Последние мысли

  • Управляйте своими ожиданиями: на то, чтобы придумать новую, осуществимую идею, потребуется больше нескольких часов. Это непрерывный процесс вдохновения, и вы должны записывать любые идеи, которые приходят вам в голову. Откройте заметку на телефоне и отслеживайте свои идеи. Возможно, вам удастся объединить несколько своих идей в один сильный проект.
  • Расскажите кому-нибудь о своей идее: обсуждение идеи проекта с кем-нибудь может вам помочь. Может быть, интереснее связанный с этим вопрос. Может быть, они могут указать вам на дополнительные источники данных. Может быть, вам нужна дека, чтобы понять, имеет ли ваша идея смысл.
  • Не бойтесь начинать заново: каждый опыт чему-то вас учит. Каждый раз, когда вы пишете строку кода, вы практикуетесь и расширяете свои навыки. Когда вы понимаете, что ваша идея не приближает вас к цели или идея невыполнима, не бойтесь оставить ее и двигаться дальше. Время, которое вы потратили, не было потрачено зря. Важно понимать, когда ваши усилия не принесут хотя бы такой же награды.

Это руководство надежно подводит меня к новым и уникальным идеям проектов в области науки о данных, и я надеюсь, что вы сочтете его таким же полезным, как и я. Сообщите мне, каков ваш процесс и чего, по вашему мнению, не хватает на этих этапах.

Хотите читать больше качественных историй на Medium? Рассмотрите возможность подписки на членство, которое поддерживает меня и других авторов Medium.