Тайна стара как мир. Где это началось, где это закончится. Никто не знает наверняка, что ждет нас в будущем, но статистический подход помогает нам понять, что заставляет кого-то жить дольше и что негативно влияет на чьи-то шансы прожить дольше. Все понимают, что жизнь бесценна, жестока, радостна и страшна. Чего никто не понимает, так это неудачного дня, когда жизнь каждого меняется. Каждый день перед вами стоит задача избежать критических повреждений в постоянно развивающемся мире. Внедрение в производство автомобилей создало четкое представление о том, что может предложить новая технология. Как указано здесь, В период с 1913 по 2018 год количество смертей в результате дорожно-транспортных происшествий в Соединенных Штатах (включая все типы автомобилей, включая легковые автомобили, грузовики, автобусы и мотоциклы) увеличилось на 838%, с 4200 смертей. в 1913 году до 39 404 в 2018 году. Однако роль автомобилей в повседневной жизни сейчас сильно отличается от того, когда началось отслеживание. Хотя автомобиль был одним из величайших изобретений человечества, ясно, что любой успех имеет свои последствия. Чтобы лучше разобраться в этом вопросе, я перекачал набор данных, предоставленный ВОЗ (Всемирной организацией здравоохранения), в котором подробно рассказывается о 172 разных странах, чтобы определить ожидаемую продолжительность жизни. Они использовали способствующие факторы, такие как развитая или развивающаяся страна, потребление алкоголя на душу населения, уровень ВИЧ / СПИДа, ожирение и несколько других данных, связанных со здоровьем и образом жизни. Для начала я взял набор данных и создал корреляционную матрицу, показывающую десять основных переменных, которые имеют наибольшую связь с моей целью прогнозирования ожидаемой продолжительности жизни.

Взглянув на эту тепловую карту, мы получим представление о том, какие факторы больше всего влияют на нашу модель прогнозирования ожидаемой продолжительности жизни. Мы можем сказать, что доходная составляющая ресурса, которая помогает описать человеческое развитие в области, является ведущим претендентом на прогнозирование продолжительности жизни. Мы также замечаем, что большую роль в предсказании играет школьное образование. Увидев, насколько сильно эти два фактора влияют на продолжительность жизни, я решил рассмотреть их поближе.

Взглянув на этот график, можно увидеть очень положительную корреляцию между обучением в школе и ожидаемой продолжительностью жизни. Некоторые из стран, расположенных вдоль исходной линии по оси X, относятся к развивающимся странам, в основном в Африке, которые не передавали информацию о школьном обучении в ВОЗ. С другой стороны, самая высокая точка данных здесь — Новая Зеландия. Средний учащийся проводит в школе 20 лет, а ожидаемая продолжительность жизни составляет 89 лет. Прямо под этой точкой данных у нас есть такие страны, как Италия, Германия, Испания, Норвегия, Португалия, Швеция, Франция и Бельгия. Эти страны заняли первое место в нашем наборе данных, у всех ожидаемая продолжительность жизни составляет примерно 89 лет. Я считаю, что это правда, поскольку вы узнаете больше и развиваете свое понимание мира и жизни вокруг вас, вы становитесь более осведомленными о таких вещах, как диета и употребление наркотиков. Во-вторых, мы рассмотрели доходную составляющую ресурса. Эти данные дали нам информацию о том, насколько продуктивно страна использует свои ресурсы, будь то исследования новых лекарств или больницы.

Точно так же, как указано выше, существует чрезвычайно положительная корреляция между суммой денег, которую страны тратят на повышение своей продуктивности в повседневной деятельности, и ожидаемой продолжительностью жизни. Как и ранее, те же страны, которые преуспели в школьном обучении, также преуспели в полезном использовании доходной структуры ресурсов. Теперь, просматривая данные дальше, я обнаружил, что существует отрицательная корреляция между уровнем смертности среди взрослых и ожидаемой продолжительностью жизни.

Как известно, уровень смертности среди взрослых — это вероятность того, что кто-то умрет в возрасте от 15 до 60 лет, поэтому попытка использовать его в качестве переменной, по вашему мнению, негативно повлияет на прогноз, но на самом деле это полезно для нас, поскольку даже отрицательные корреляции дают нам представление.

Модель прогнозирующего машинного обучения

После первоначального изучения данных я взял на себя смелость начать попытки создать модель для прогнозирования ожидаемой продолжительности жизни. Зная, что это проблема регрессии, я начал с создания базовой линии, которая составляла всего 0,014%, так что, надеюсь, я смогу значительно улучшить ее. Я начал с базовой модели гребневой регрессии и подогнал ее к своим обучающим данным. Чтобы измерить сделанные улучшения, я взял среднеквадратичную ошибку и r (квадрат) для наших моделей. Я выбрал среднеквадратичную ошибку, так как она дает мне среднеквадратичную разницу между нашим оценочным значением и нашим фактическим значением, что дает нам представление о том, насколько велико расхождение. Наряду с этой метрикой я использовал оценку r (квадрат), которая показывает, насколько мои данные близки к подобранной линии регрессии, или, проще говоря, дисперсия зависимой переменной, предсказанная на основе моих независимых переменных. После моей первоначальной модели хребта я был рад видеть, что среднеквадратическая ошибка составляет 40,43, а моя оценка r (квадрат) составляет 62,40%. Я знал, что могу добиться большего, чем это. Я снова начал исследовать свои данные и смотреть на них по-новому. Я создал график частичной зависимости, чтобы лучше понять, что движет моими данными. Я снова посмотрел на две мои самые высокие коррелированные точки, а именно на образование и структуру доходов и ресурсов.

Я был расстроен, увидев, что из нашей новой точки зрения на то, как каждая функция напрямую коррелирует с нашей моделью, мало что можно было отнять. Затем я решил попытаться создать конвейер, ориентированный на использование XGBRegressor. Я быстро понял, что эта модель будет значительно лучше, чем наша обычная регрессионная модель гребня, потому что теперь она выбрала маршрут повышения градиента, чтобы помочь получить наилучшие возможные результаты, и это почти произошло. Получив среднеквадратичную ошибку всего 5,89 и показатель r (квадрат) 94,52%, было очень ясно увидеть основное влияние, которое оказало использование этого усилителя градиента. Но я все еще чувствовал, что могу выжать из этого немного больше. Я потратил время, пытаясь точно настроить параметры моей модели, чтобы получить какое-либо преимущество. Я узнал, что в моих данных были выбросы. Что-то, с чем эти ускорители градиента не справляются так хорошо, как RandomForestRegressor. Поработав с новой моделью, я снова подгоняю свою модель к своим тренировочным данным. Я обнаружил, что мои баллы снова увеличились, начиная с того, что среднеквадратическая ошибка упала до ничтожных 2,19, а мой показатель r (квадрат) теперь приближается к кричащим 97,95%. Я был взволнован, увидев такую ​​невероятную оценку, показывающую, что использование правильного алгоритма машинного обучения значительно влияет на ваши результаты. Я изо всех сил старался исключить утечку, сначала убрав смертность среди взрослых, поскольку я думал, что это слишком близкий предсказатель ожидаемой продолжительности жизни, но узнал, что на самом деле это составляет лишь примерно 0,12% важности моей функции. Нашими главными факторами, способствовавшими получению результата, были ВИЧ/СПИД, доходная структура ресурсов, школьное образование и затем смертность среди взрослых. Понимание наших данных показывает, что для прогнозирования ожидаемой продолжительности жизни в стране мы должны сначала рассмотреть несколько основных факторов, таких как четыре, перечисленных выше, отсюда мы можем начать оценивать, где, по нашему мнению, должно быть наше прогнозируемое число.