Добро пожаловать, читатели!

Недавно я прошел через процесс обучения (и переобучения) регрессии и множественной регрессии, составляющих основу машинного обучения и прогнозного анализа. В свете этих знаний я подумал, что сделаю серию из двух частей о простых моделях множественной регрессии. В части 1 я хотел бы рассказать о том, как я построил модель и использовал ее для прогнозирования, что-то похожее на прогнозирование. Во второй части я перейду к включению большего количества предикторов, используя sckit learn, и немного расскажу об оптимизации вашей модели. Давай начнем!

Фон

28 января 1986 года космический корабль «Челленджер» развалился после 73 секунд полета. Не только уничтожение оборудования на миллионы долларов, но и гибель 7 космонавтов. После долгих исследований и размышлений был сделан вывод, что эта катастрофа произошла из-за того, что правый ракетный твердотопливный ускоритель не смог взлететь из-за повреждения кольцевого уплотнения. Было обнаружено, что кольцевые уплотнения не предназначены для работы при очень низких температурах (которые были замечены в этом полете) и поэтому не работают, и, следовательно, сжатый газ попал во внешнюю часть корабля и привел к нему. кончина.

В ходе исследования были взяты данные с разных космических аппаратов, чтобы проверить конструкцию уплотнительного кольца при различных температурах (F) и давлениях утечки (PSI).

Ниже вы можете увидеть библиотеки, которые я буду использовать в этом анализе, а также заголовок данных, которые будут использоваться. Я изменю имена столбцов, чтобы их было легче интерпретировать. Для этой модели зависимой переменной будут кольца в состоянии бедствия, поскольку это то, что мы хотим проверить на предмет деградации, а нашими предикторами будут температура и давление при проверке герметичности.

Модель регрессии

Я хотел создать прогностическую модель, чтобы наблюдать деградацию уплотнительного кольца при разных температурах. Эта модель может пригодиться при прогнозировании и для того, чтобы предсказать, какая оптимальная температура будет для поддержки этих уплотнительных колец. Для этого я использовал пакет statsmodel и импортировал инструмент ols. Метод ols или обычный метод наименьших квадратов - это способ оценки неизвестных параметров в регрессионной модели. Этот инструмент пригодится, когда мы хотим наблюдать точку пересечения и наклон линии регрессии в наших данных. Инструмент ols в Python дает нам точку пересечения, наклон и, а также значение R-квадрат - удобный инструмент, который помогает нам увидеть, значимы ли наши результаты.

В python вы вызываете инструмент ols, указываете переменную Y ~ переменную (-ы) X,

(Примечание: это нотация R, есть нотация для Python, но для этого требуется дополнительный шаг, так что… почему бы не использовать это?)

Введите данные и скажите, чтобы они соответствовали переменным. Затем вам будет представлена ​​аккуратная диаграмма, которая дает вам всю информацию, которая может вам понадобиться для построения уравнения для вашей модели.

PS: вы также можете научиться этому ... python - это язык многих библиотек и множества способов получить желаемый результат!

Уравнение и применение

Любой, кто изучал математику в средней школе, легко узнает уравнение y = b + m1x1 + m2x2 (….) или:

Где B0 - это точка пересечения, B1 - это наклон предиктора (x), а y - прогноз, который мы хотели бы сделать. К счастью, наша модель ols предоставила нам точку пересечения и наклон обеих переменных, которые мы хотим измерить (температура и давление при проверке герметичности). Теперь осталось только построить уравнение и применить его!

Ниже вы можете увидеть модель / уравнение и несколько расчетов. Мы знаем, что температура, для которой мы хотим сделать прогноз, составляет 31 F, но мы не знаем давления (PSI), для которого мы должны делать прогноз. Следовательно, полезно наблюдать за всеми давлениями, указанными в наших данных (0, 50, 100, 500).

Я вручную использовал это уравнение для прогнозирования деградации уплотнительного кольца, однако при использовании sckit learn вы также можете использовать метод .predict, чтобы легко делать эти прогнозы.

В целом, модель предсказывает, что при всех четырех испытанных давлениях утечки и температуре 31 ° F примерно 2 уплотнительных кольца будут повреждены.

Мы можем использовать подобные прогнозы для построения простой регрессионной модели, когда начинаем и практикуем наши навыки прогнозного моделирования. Следующим шагом будет изучение того, как оптимизировать модель, и вы будете на правильном пути к построению моделей машинного обучения!

Во второй части этой серии я более подробно расскажу о создании хороших моделей (т. Е. Оптимизации) и о том, как использовать sckit learn (более популярную библиотеку для машинного обучения) для создания вашей модели. Следите за новостями и спасибо за чтение!

Данные из открытых источников взяты из: https://archive.ics.uci.edu/ml/datasets/Challenger+USA+Space+Shuttle+O-Ring

Подробнее о полете претендента: https://en.wikipedia.org/wiki/Space_Shuttle_Challenger_disaster