Я постоянно слышу поговорку: «Счастье за ​​деньги не купишь»! Возникает вопрос: «Если деньги не делают вас счастливым, то какие факторы влияют на счастье?».

Я решил взглянуть на эту проблему, используя набор данных, который я нашел на Kaggle. Набор данных содержит «Индекс счастья» стран по всему миру. Этот набор данных учитывает такие факторы, как «Семья», «Коррупция», «Социальная поддержка», «Свобода», «Щедрость» и т. Д. Давайте погрузимся в суть дела и посмотрим, сможем ли мы найти ключи к обретению счастья! (Подсказка: для меня наука о данных - хобби 😉)

Я буду исследовать различные функции в этом наборе данных. Поскольку поговорка «счастье не за деньги» является настолько распространенным явлением, я решил сначала взглянуть на функцию «Экономика (ВВП)». Следует помнить, что за деньги нельзя купить настоящее счастье. За деньги можно купить временное утешение и поддержку, так что пусть это не скручивает! Некоторые статистические данные говорят о том, что уровень счастья не сильно увеличивается или уровень счастья может даже снизиться, если человек получает зарплату более 70 тысяч долларов в год. С учетом сказанного, давайте посмотрим на экономику (ВВП) разных стран и на то, как они варьируются в этом наборе данных.

Ниже представлено распределение различных экономик (ВВП) в наборе данных. Мы видим, что гистограмма немного смещена вправо. Это означает, что в наборе данных больше стран с хорошей экономикой, а не с плохой.

Ниже представлено распределение «Социальной поддержки» в разных странах. И снова мы видим, что эта гистограмма сильно смещена вправо. Это означает, что в мире больше стран, предлагающих своим гражданам социальную поддержку, чем стран, которые не предлагают социальную поддержку. Если мы увидим высоту ячеек в левой части распределения по сравнению с ячейками с правой стороны, мы увидим значительное изменение размера высоты. Это еще раз означает, что большинство стран в этом наборе данных предоставляют достаточно хорошую систему «социальной поддержки».

Приведенное ниже распределение является мерой «Восприятия коррупции». Это характеристика, которая измеряет чувство «коррупции» в правительстве страны. Мы видим, что это распределение смещено влево, в отличие от двух последних распределений. Некоторые могут спросить, почему это важно? Это важно, потому что в нем говорится, что в целом в мире меньше процент коррупции. Если бы это распределение было смещено вправо, это означало бы, что коррупция таится в каждом углу; однако это распределение смещено вправо. Это означает, что в целом во многих странах наблюдается низкое количество случаев коррупции. Это считается желательным, поскольку вызывает доверие среди людей.

Поскольку наша целевая переменная - «Оценка счастья», я решил посмотреть, как на нее влияет «Доверие (коррупция)». Эту диаграмму рассеяния может быть немного сложно понять, но если мы посмотрим на нее внимательно, мы сможем получить некоторые идеи. Одна интересная вещь, которую я обнаружил на этой диаграмме рассеяния, - это точки данных с высоким отсутствием «доверия», то есть (коррупция). Мы видим, что страны с более высоким уровнем коррупции, как правило, имеют более высокий «показатель счастья». В то время как страны с более низким уровнем коррупции варьируются от высокого до низкого по своему «баллу счастья», однако это может быть просто из-за отсутствия данных наблюдений из стран с более высоким уровнем коррупции.

Вот диаграмма рассеяния, которая показывает взаимосвязь между «счастьем» и «семьей». Просто взглянув на него, мы можем увидеть, что существует хорошая положительная корреляция между характеристиками «Счастье» и «Семья». «Семья» может быть одним из ключевых факторов, определяющих «счастье» человека. Лично я человек, ориентированный на семью, и я действительно испытываю огромное чувство радости, когда мы все вместе. Вероятно, так обстоит дело с миллионами семей по всему миру.

И последнее, но не менее важное - это связь между «счастьем» и «экономией». Мы видим относительно сильную положительную корреляцию между «счастьем» и «экономией». Это говорит о том, что страны с хорошей экономикой и высоким ВВП, как правило, более счастливы, чем те, у кого нет. В некотором смысле это имеет смысл, потому что трудно быть счастливым, когда экономика страны плохая. Это означает, что люди не могут работать, обеспечивать свои семьи или нормально вести свою повседневную жизнь. Эти испытания определенно могут высосать из человека счастье. Кто-то может сказать: «За деньги счастье не купишь», но они всегда упускают из виду ту часть, где деньги могут быть одним из важнейших факторов счастья.

Главное в жизни - быть счастливым. Когда люди ищут счастья, они часто думают, что один единственный денежный фактор будет ключом к их счастью. Примером этого может быть человек, который думает, что счастье зависит исключительно от количества тех, кто получил работу, машину, дорогую одежду или дом и т.д. набор данных. Есть несколько других факторов, которые способствуют счастью людей, помимо ВВП (экономики). Некоторые из этих факторов - «Здоровье», «Семья» и «Свобода» делать жизненный выбор. Имея это в виду, давайте приступим прямо к делу.

Одним из факторов, который может быть важнее денег, является «здоровье» человека. Давайте немного подумаем. Примем ли мы 50 миллионов долларов, если бы нам пришлось прожить на больничной койке всю оставшуюся жизнь? Подавляющее большинство людей скажет НЕТ! Есть чрезвычайно богатые люди, которые готовы отдать каждую копейку только ради того, чтобы снова стать здоровыми. Поэтому в следующий раз, когда мы почувствуем себя подавленным из-за того, что на наших банковских счетах мало, не забывайте радоваться тому, что наши легкие полны воздуха, потому что это поистине бесценно. Вы знаете, что они говорят: «Здоровье - это богатство».

Время здоровой дозы аналитики! Ниже представлена ​​столбиковая диаграмма среднего значения «Здоровье (ожидаемая продолжительность жизни)» по регионам.

Мы видим, что Австралия и Новая Зеландия имеют самые высокие показатели «здоровья (ожидаемой продолжительности жизни)» по сравнению со всеми другими регионами мира. Причина, по которой люди живут дольше, чем раньше, связана с достижениями в области технологий. В частности, в сфере здравоохранения. Поскольку большее количество людей могут позволить себе такое лечение, ожидаемая продолжительность жизни в «регионах», таких как Западная Европа и Северная Америка, выше.

Мы видим значительное снижение показателя «Здоровье (ожидаемая продолжительность жизни)» в регионе Африки к югу от Сахары. Одним из факторов, который может стать причиной чрезвычайно низкого «здоровья (ожидаемой продолжительности жизни)», может быть нехватка медикаментов в этом регионе. Печально то, что многие люди умирают от предотвратимых смертей из-за нехватки медикаментов. Болезнь и немощь - это немаловажные вещи, поэтому «здоровье» человека является важным фактором при определении его счастья.

В мире также есть факторы, которые мы не можем контролировать, например, коррупция. Ниже представлен график, на котором показан средний уровень «коррупции» по регионам.

Честно говоря, я был очень удивлен, увидев, что Австралия и Новая Зеландия оказались регионами с самым высоким уровнем коррупции. Первоначально я думал, что развивающиеся регионы более коррумпированы, но это оказалось совершенно неверным. В Австралии почти в 4 раза больше коррупции, чем в трех странах с наименьшими показателями.

Еще один важный фактор, влияющий на счастье людей, - это «свобода». Некоторые могут спросить, что означает «свобода» в данном случае. «Свобода» - это способность делать большой жизненный выбор. В данном случае «Свобода» - это возможность получить желаемую работу, начать свой бизнес, переехать в совершенно другое место. Ниже представлена ​​столбиковая диаграмма, показывающая различные показатели «свободы» по регионам.

Мы видим, что самые высокие уровни «свободы» находятся в Австралии и Северной Америке. Мне было интересно узнать, что на Ближнем Востоке, в Центральной и Восточной Европе самый низкий уровень «свободы». Это могло быть связано с некоторыми жесткими законами, наложенными на людей. Тем не менее, они оба по-прежнему довольно хорошо оцениваются, когда дело доходит до «Оценка счастья» и «Рейтинг счастья».

Что такое «Оценка счастья»? На самом деле это довольно просто. Спросите человека, насколько вы счастливы по шкале от 1 до 10? Их ответ - «Оценка счастья». Ниже представлена ​​гистограмма среднего показателя счастья в разных регионах.

Мы видим, что Северная Америка, Австралия и Новая Зеландия имеют самый высокий «показатель счастья» по сравнению с любыми другими регионами мира. Северная Америка почти на равных с Австралией по показателю счастья. Мы видим, что страны Африки к югу от Сахары имеют самый низкий «показатель счастья». Мы можем видеть, как различные факторы, такие как «Здоровье» и «Экономия», повлияли на их «Показатель счастья».

После получения «Оценки счастья» и учета других факторов каждый регион оценивается по степени счастья. Напоминаю, что чем ниже рейтинг, тем счастливее страна.

Если бы мы рассматривали это как соревнование, то самые низкие 3 столбца на графике занимали бы 1, 2 и 3 места. Самые большие 3 бара будут на 8-м, 9-м и 10-м местах. Еще раз мы видим, что Северная Америка, Австралия и Западная Европа занимают первые 3 места в рейтинге счастья. Поскольку у них самые низкие столбцы на графике, это означает, что они занимают более высокое место, чем другие регионы.

Я буду проходить процесс машинного обучения в рамках проекта. Мы собираемся сделать модель, которая прогнозирует «показатель счастья». Поскольку прогнозируется «Оценка счастья», это наша целевая переменная. Другие факторы, такие как «Здоровье», «Экономика», «Свобода» и т. Д., Являются характеристическими переменными. Эти функции помогут модели определить точный прогноз для «показателя счастья».

Эти модели будут моделями контролируемой регрессии. Это так, потому что у нас есть четко обозначенные данные (Target, Features), что делает их контролируемой моделью. Кроме того, мы пытаемся предсказать «показатель счастья», который представляет собой непрерывное число, что делает это проблемой регрессии. Имея это в виду, давайте приступим прямо к делу!

Просто чтобы предупредить, это мои ванильные модели, также известные как «грязные модели» (модели первого раунда), так что есть много возможностей для улучшения. Тем не менее, я узнал одну вещь о создании моделей: это никогда не делается просто так. Мы создаем модели в итеративном процессе, каждый раз добавляя небольшие изменения и улучшения. После внесения изменений мы запускаем модель, чтобы получить результаты. Получив результаты, мы сравниваем их с результатами предыдущей модели. Я углублюсь в это позже, когда закончу свои «Ванильные модели».

Вот моя «ванильная» модель линейной регрессии. Первое, что мне нужно было сделать, это разбить мои данные на 3 набора (обучение, тестирование, проверка). Вскоре я создал модель линейной регрессии. После этого я поместил свой обучающий набор данных в модель линейной регрессии. Теперь наша модель сделана! Мы будем использовать эту модель, чтобы делать прогнозы и проверять их точность.

Теперь нам нужно получить прогнозы от модели, поэтому мы вызываем нашу модель Linreg и используем функцию прогнозирования. Мы вводим наши данные X_val, потому что это то, что модель будет использовать для получения прогнозируемого «показателя счастья». Причина, по которой мы получаем прогнозы, заключается в том, что нам нужно увидеть, как эти прогнозы сравниваются с фактическими значениями в наборе данных. Нам также понадобятся прогнозы, если мы хотим получить такие показатели, как R-Squared и Mean Squared Error (MSE).

Среднеквадратичная ошибка (MSE) для модели линейной регрессии составляет 0,016, что действительно мало. Это означает, что модель дает ошибку примерно на 0,016 единицы при прогнозировании «показателя счастья». R-квадрат для этой модели линейной регрессии составляет 0,987, что является действительно высоким показателем. Это наводит меня на мысль, что модель переоборудована. Придется найти мощные особенности и, возможно, отказаться от них.

Еще одна модель, которую я использовал, - это XGBoost Regressor. Процесс создания этой модели был похож на линейную регрессию.

Сначала я создаю экземпляр XGBoost Regressor, затем подгоняю модель к обучающим данным. После этого мы используем модель XG Boost, чтобы делать прогнозы, необходимые для оценки таких показателей, как R-Squared.

R-Squared для XGBoost Model 0.958 - довольно хороший результат. Это говорит о том, что модель захватывает почти 96% данных, необходимых для прогнозирования «показателя счастья». Эта модель может немного переоснащаться, но это всего лишь предположение. Точно узнаем на следующей неделе. Прежде чем мы подведем итоги, давайте посмотрим, как эти функции играют роль в определении «показателя счастья».

Выше представлена ​​гистограмма различных функций с их относительными оценками важности. Мы можем видеть, что «Экономика» - это функция с наивысшим баллом, в то время как «Семья» имеет 2-е место по количеству баллов, но это лишь наполовину менее важно, чем «Экономия». Меня все еще заинтриговало то, что функция «Свобода» примерно на четверть важнее, чем «Экономика».

Я буду дорабатывать свои модели, создавать новые и надеюсь улучшить свои показатели в будущем. Посмотрим, на какие еще интересные выводы мы наткнемся.

Использованная литература:

Сеть, С. (27 ноября 2019 г.). Отчет о мировом счастье. Получено 1 февраля 2021 г. с сайта https://www.kaggle.com/unsdsn/world-happiness.

Рю, Брэндон. «Счастье во всем мире». Блог по науке о данных, 16 августа 2020 г., nycdatascience.com/blog/student-works/happiness-around-the-world.

Нгуен, Суанхань. «Счастье и удовлетворение жизнью - к науке о данных». Средний, 9 августа 2020 г., todatascience.com/happiness-and-life-satisfaction-ecdc7d0ab9a5.

Ислам, Просмотреть все сообщения Rezwan. «Исследовательский анализ данных в Докладе о мировом счастье». Wilddatascientist, 5 февраля 2020 г., mldatascientist.wordpress.com/2018/06/01/exploratory-data-analysis-on-world-happiness-report.

Аллен, Мартин. «Создание оглавления для средних статей». Medium, Medium, 3 января 2020 г., medium.com/@AllienWorks/creating-table-of-contents-for-medium-articles-5f9087377b82#dc26.

Коэн, Джозеф. «Машинное обучение: проблема дисбаланса меток целевых функций и решения». Средний, Towards Data Science, 15 декабря 2020 г., todatascience.com/machine-learning-target-feature-label-imbalance-problem-and-solutions-98c5ae89ad0.

Лопес, Елена. «Фото Хелены Лопес с Unsplash». Красивые бесплатные изображения и картинки, Unsplash, 29 ноября 2017 г., unsplash.com/photos/e3OUQGT9bWU.