Эта статья представляет собой обобщенный результат опыта интервьюера и интервьюируемого. Интуиция заключается в том, чтобы поддержать энтузиастов и профессионалов в области науки о данных, чтобы пройти собеседование по науке о данных.

Для ясности интервью предлагается обратиться к поясняющим ключевым моментам к перечисленной анкете. Эти вопросы поднимались в последние дни на разных этапах интервью с известными организациями по науке о данных.

  1. Что такое длинный и широкий набор данных?
  2. Что такое оси X и Y в логистической регрессии?
  3. Каковы методы построения деревьев решений?
  4. Как будет построено дерево решений и в чем его логика?
  5. Чем построение случайного леса отличается от деревьев решений?
  6. Как работает кластеризация K-средних?
  7. Что такое КНН?
  8. Каковы методы вычисления K в K-средних?
  9. Что такое K-средства++?
  10. Что такое бэггинг и буст моделей? Когда его использовать?
  11. Каков ваш подход к разработке проекта по науке о данных?
  12. Что именно вы сделали для проекта? Объясните с каждым этапом?
  13. Что такое точность и полнота? Обратите внимание на важность каждого?
  14. Перечислите и кратко изложите важность алгоритмов оптимизации?
  15. Как вы определили ключевые параметры в своем проекте?
  16. Как вы проверяли свою модель? или Как проверить модель?
  17. Как измерить производительность модели?
  18. Какие меры предосторожности учитываются для будущей производительности модели?
  19. Как вы интерпретировали модель?
  20. Что такое ПДП?
  21. Что такое A/B-тестирование? Почему он используется?
  22. Вы проверяли производительность вашей модели во время выполнения? Кратко это?
  23. Какие показатели учитываются при оценке вашей модели?
  24. Пример из практики: как определить отток клиентов в автомобильной отрасли в зависимости от обслуживания автомобилей?
  25. Почему повышение градиента важно?
  26. Что такое загрузочный набор данных? Будет ли замена/незамена?
  27. Каковы этапы обработки естественного языка?
  28. Пример: различные твиты, собранные с платформ социальных сетей и созданные в виде набора данных, как анализировать/исследовать эти данные и исключать фиктивные твиты, чтобы найти лучших авторов.
  29. Что такое тематическое моделирование?
  30. Зачем считать векторизатор, встраивание слов, word2vec?
  31. Объясните свой вклад в развертывание модели?
  32. Каков ваш повседневный режим работы?
  33. С какими критическими проблемами вы столкнулись в бизнесе? Как вы решили это / их?
  34. Пример из практики:6 дней, 50 магазинов. Человек должен обойти все магазины за 6 дней с минимальным расстоянием. Каков ваш подход к поиску маршрута?
  35. Пример из практики. Каков ваш подход к поиску 25 % покупателей, имеющих право на получение скидок в точках продаж?