Выделите свои проекты из общей массы и завоюйте внимание менеджеров по анализу данных

Рынок вакансий в области обработки данных чрезвычайно конкурентен. Есть много квалифицированных кандидатов, и их бывает сложно отличить. Для меня самый простой способ отделить самых сильных кандидатов от более слабых - это посмотреть их проекты на github или kaggle.

После того, как вы ознакомились с Проектами, которые вам следует предпринять, чтобы получить работу в области науки о данных, пришло время поэкспериментировать с несколькими модификациями, чтобы они действительно стали популярными.

Ниже приведены несколько способов вывести свои проекты на новый уровень.

Сделайте свои проекты уникальными. Проекты должны начинаться с хорошей истории. Если у вас есть веская причина для работы с определенным набором данных, это привлекает мое внимание. Не бойтесь рассказывать историю своего проекта в README на github или в верхней части учебного пособия Kaggle. Уникальные проекты сложнее воспроизвести. К сожалению, я видел, как некоторые кандидаты копируют работы или целые проекты без аккредитации.

Соберите свои данные. Получить набор данных с сайта kaggle.com довольно просто. Мне нравится, когда кандидаты используют альтернативные подходы для получения данных. Если они используют API или собирают данные с веб-сайта, это показывает мне, что они готовы потратить время, чтобы получить нужную информацию. Возможность использовать API и обрабатывать данные - чрезвычайно ценные инструменты для специалистов по данным. Делая это для проекта, вы демонстрируете, что у них есть эти навыки.

Используйте расширенную разработку функций. Модель, которую мы создаем, хороша ровно настолько, насколько хороши данные, которые в нее входят. Впечатляет, когда вы проявляете творческий подход, добавляя новые функции или улучшая существующие. Мой самый распространенный пример связан с геопространственными данными. Если у вас есть широта и долгота места, вы можете определить его расстояние от другого места. Это расстояние почти всегда полезнее, чем отдельные точки.

При необходимости уменьшите количество функций. Некоторые модели, которые вы хотели бы использовать, плохо справляются с разреженностью или мультиколлинеарностью. Если вы знаете, почему и когда использовать PCA или другие методы сокращения возможностей, это всегда бонус.

Построение ансамблевых моделей. Эти методы довольно распространены; однако они обычно дают наилучшие результаты. Если вы не исследовали возможности комбинирования нескольких моделей, вы остались позади.

Ввести их в производство. Если вы создаете API или веб-сайт для своего проекта, вы выполняете сквозной анализ. Один из важнейших навыков специалиста по данным - делать свою работу полезной. Вы демонстрируете практичность своей работы, делая ее доступной для других людей.

Сделайте их ценными для кого-то. Делать проект для себя - это здорово, но иногда вы можете использовать свои проекты, чтобы помочь другим. Возможно, вы могли бы провести анализ, который поможет вашей местной некоммерческой организации сократить свои расходы или поможет приюту для животных повысить уровень их принятия. Подобные проекты имеют ощутимые результаты и измеримые результаты в реальном мире. Наука о данных должна оказывать влияние на реальный мир, и эти проекты иллюстрируют это.

Надеюсь, эти советы улучшат качество вашей работы и помогут привлечь внимание работодателей!