В качестве студенческого проекта я исследовал, могут ли модели машинного обучения предсказать вашу зарплату, взглянув на:

  • Когда вы встаете утром?
  • Ты занимаешься?
  • Вы пропускаете приемы пищи в течение дня?
  • Сколько часов вы проводите за компьютером?
  • Сколько часов ты на улице?
  • Возраст?

Также видели, какая из моделей делает лучший прогноз и какие функции наиболее важны для прогнозирования заработной платы?

Используемые для этого данные — это ежегодный опрос Stack Overflow с данными за 2018 год. Это вы можете найти по ней:



Опрос разработчиков Stack Overflow 2018
Отдельные ответы на опрос разработчиков 2018, проведенный Stack Overflowwww.kaggle.com



Когда я смотрю на это, я использовал другую модель машинного обучения, которая использует разные математические алгоритмы, чтобы попытаться вычислить решения на основе ввода.

Модели, которые я выбрал для использования:

  • RandomForestRegressor может установить и изменить ее на ПК
  • Линейная регрессия может быть связана с другими разветвителями.
  • KNeighborРегрессор
  • Дерево решенийРегрессор

О ЧЕМ ДАЮТ РАСЧЕТЫ?

Расчеты показывают, что наибольшее значение при расчетах имеет то, как часто вы пропускаете приемы пищи в течение недели. Модели могут сказать, что это самый яркий способ заработать большие деньги, но он имеет наибольшее влияние на оценку в модели. При самой высокой важности в модели с 6%, если вы пропускаете прием пищи 1–2 раза в неделю, похоже, что сделать какой-либо хороший прогноз может быть сложно.

Когда я начал смотреть на эти данные, мне стало интересно, может ли время пробуждения по утрам сказать что-нибудь о зарплате. Я немного разочаровался, когда узнал, что из всех вариантов времени пробуждения, которые участник мог выбрать, время пробуждения между 7 и 8 часами утра оказывает наибольшее влияние на результат.

МОЖЕМ ПРЕДСКАЗАТЬ ЗАРПЛАТУ?

С набором данных, который я использовал для этого прогноза, у нас есть более 60 000 респондентов, которые ответили на вопросы. Они также ответили на вопрос о зарплате, поэтому я знаю, что ищу.

Когда я делал модели и запускал прогнозы, я не получал хороших прогнозов. Лучшая цифра, которую я получил, заключалась в том, что модель предсказала заработную плату с вероятностью 1,3%, и это не очень хороший прогноз. На графике вы можете увидеть разницу в прогнозируемой и реальной зарплате.

КАКАЯ ИЗ ЭТИХ МОДЕЛЕЙ ЛУЧШЕ

Оказывается, ни одна из этих моделей не соответствует выбранным входным данным достаточно хорошо. На графике мы видим оценку R2 для выбранных моделей, и хорошая оценка должна быть не менее 0,5 балла. Эти модели почти не превышают 0, поэтому оценка не очень хорошая.

Если я буду продолжать использовать эти модели, я должен посмотреть на другие входные данные, которые были включены в набор данных. Например, указать, какое образование имеют участники и как долго они проработали в бизнесе.

ВЫВОД

Не думайте, что ваш сосед зарабатывает намного больше вас, даже если он встает рано утром и делает первое упражнение до того, как вы поставили ноги на пол. Но полезно заниматься спортом и проводить время вдали от компьютера, но это не обязательно делать до восхода солнца.