Ведение заметок — это способность, которую часто упускают из виду при разработке проекта по науке о данных, особенно новички. Ошибка, которую я совершил в первый период своей карьеры, заключалась в том, что я прыгнул в самую гущу событий и начал работать моделью.

У нас, специалистов по данным, возникает всплеск адреналина, когда мы начинаем моделировать данные (по крайней мере, у меня!). Но этапы моделирования и прогнозирования могут пострадать из-за плохой структуризации проекта, искаженных гипотез и предварительной обработки данных. Обычно это вызвано множеством причин:

  • незавершенные (или даже отсутствующие) сеансы мозгового штурма
  • неверные данные (мусор на входе, мусор на выходе)
  • плохая практика кодирования

и более. Мои подписчики знают, что я уже писал о правильном структурировании проекта по науке о данных, и в этой связи я также упоминаю файл README.md, который также является результатом работы над заметками.

Я считаю, что этот упомянутый навык невероятно важен для успеха проекта. Позвольте мне показать вам, почему я так думаю.

Практически в любом контексте делать заметки равносильно мозговому штурму с самим собой. Конечно, вы можете работать над этим в команде, но цель останется прежней. Он действует как способ кристаллизации мысли. Это придает прогрессивную структуру и ясность различным этапам проекта и помогает вам понять вещи, которые не были бы так ясны, если бы вы не записали их в первую очередь. Новички берутся за дело, потому что они полны энергии и хотят довести дело до конца, чтобы проявить себя — именно поэтому они совершают так много ошибок. Они не замедляются и ничего не записывают.

Если вы новичок, вам будет очень полезно замедлиться и сосредоточиться на правильном ведении заметок. Если вы опытный профессионал, то поймете, почему я посвящаю этой теме целую статью. Надеюсь, вы просто получите удовольствие от прочтения :)

Записывать вещи — это суперсила

Написание на Medium еще больше укрепило во мне это убеждение. Способность излагать свои мысли на бумаге — чертова сверхспособность, причем очень недооцененная.

Почему? Потому что, записывая вещи, вы лучше думаете. Это позволяет вам оттачивать те мысли, которые работают, и избавляться от тех, которые не работают.

Посмотрим, как это повлияет на результаты наших проектов.

  1. Вы можете понять проблему на более глубоком уровне, чем просто погрузиться в программирование и комментирование.
  2. Вы можете поставить проблему под другим углом, что может привести к неожиданным результатам.
  3. Записывая вещи, вы улучшаете навыки вербального общения. Они понадобятся вам при презентации заинтересованным сторонам
  4. Как иметь ментальную карту, чтобы следовать и достигать своей цели — всякий раз, когда вы чувствуете, что отвлеклись или потеряли фокус, просто вернитесь и прочитайте свои заметки.

Далее мы увидим, как настроить увлекательный процесс для эффективного ведения заметок.

Мой шаблон для заметок

Начнем с того, что разделим наш файл на несколько секций:

  • данные, которые у нас есть сейчас(ингредиенты)
  • что мы собираемся делать с имеющимися данными (рецепт)
  • ожидаемый результат
  • соображения и комментарии

Порядок произвольный. Если проект требует творческих усилий, я считаю полезным размещать сначала соображения и комментарии, а затем все остальное. Это зависит от вас.

Ингредиенты

Здесь выкладываем то, что у нас уже есть. Речь идет не только о данных — мы говорим об информации, окружающей данные, контексте, ограничениях, установленных клиентом, и так далее.

Для каждой части информации я посвящаю пару строк, чтобы описать, что это такое, и гипотетическое использование. Это помогает мне несколькими способами. Перечисляя и описывая предметы, я получаю более ясный начальный сценарий. Я знаю, что у меня есть, я знаю, что я могу делать, а чего нет.

Этот раздел обычно заполняется в самом начале проекта, перед кодированием. Если во время разработки появится новая информация, мы можем добавить ее позже.

Рецепт

Здесь я определяю, что я собираюсь делать с имеющимися у меня ингредиентами. Обычно это включает в себя последовательность действий, одно из которых необходимо для другого, что-то вроде блок-схемы или пронумерованного списка.

Эти шаги не высечены на камне: если мы понимаем, что нам нужно скорректировать направление или сосредоточиться на каком-то другом аспекте проекта, чтобы обеспечить лучший результат, мы можем обновить эти шаги и объединить рассуждения, описав, почему это произошло.

Если вы работаете в команде и планируете распространять свои заметки, убедитесь, что вы разъяснили детали, на которые другие могут не обратить внимания.

Ожидаемый результат

Очень полезно наметить, что вы ожидаете увидеть от нашей модели/анализа, прежде чем мы начнем программировать. Это поможет нам увидеть проблемы заранее, если таковые будут. Вы также можете перечислить ряд результатов, которые удовлетворяют потребности клиента. Этот выбор зависит от вас.

Соображения и комментарии

Чистый мозговой штурм и поток сознания. Мы задаем вопросы, придумываем новые идеи и используем любой инструмент, который нам нужен, чтобы описать то, что мы имеем в виду, что еще не связано с проектом.

Возможно, мы хотим расширить наш анализ рядом интересных идей? Запишите их подробно.

Вы хотите спросить своего клиента и уточнить, что означает определенная переменная? Запишите это как TODO и позвоните своему клиенту.

Вы поняли идею.

Заключение

Если вы не уделяете много внимания ведению заметок, попробуйте. Вы увидите значительное улучшение своих рассуждений и, следовательно, результатов. Этот процесс применим и к другим областям (но с другим процессом), а не только к науке о данных. Не стесняйтесь экспериментировать со своей собственной структурой — это то, что работает для меня, но то, что работает для вас, может немного отличаться.

И в заключение, вот видео, которое много лет назад вдохновило меня на разработку этого процесса. Джордж Хотц — известный хакер, предприниматель и гений программирования. То, как течет его мысль и как он организует свои проекты, просто завораживает. Посмотрите и другие его видео, чтобы получить более глубокое понимание.