Эта серия посвящена обучению с помощью программирования, в ней объясняется математика и реализуется модель с использованием Библиотеки Scikit-learn.

Что такое линейная регрессия? Как ученый по данным объяснит, что такое линейная регрессия, для нетехнических людей и убедит их, что это модель на вынос, чтобы предсказать цели продаж в следующем квартале или объем продаж в следующем квартале?

Интуитивно, откуда мы знаем, что летом количество проданных мороженых вырастет? и подняться на сколько по сравнению с прошлым годом?

Перечислим здесь некоторые причины:

  • Жаркая погода
  • Больше детей в этом районе по сравнению с прошлым годом (ну, взрослые тоже любят мороженое)
  • Изменяем ли мы какой-либо вкус нашего мороженого?
  • У людей может быть больше денег, чем в прошлом году
  • Сделали ли мы какие-то кардинальные изменения, которые могут повлиять на продажи?

Итак, чтобы «предсказать», будем ли мы продавать этим летом больше мороженого, чем в прошлом году, нам нужны некоторые «функции» или некоторые «исходные данные». Насколько большим будет вклад, чтобы вы были уверены и сказали «да», мы будем? Вы можете посмотреть количество продаж за последние три года летом, температуру и некоторые экономические показатели. Это «экземпляры», как в примере.

Примените эту интуицию к концепции линейной регрессии. Согласно Википедии: В статистике линейная регрессия — это линейный подход к моделированию связи между скалярным откликом и одной или несколькими независимыми переменными (также известными как зависимые и независимые переменные). Случай с одной независимой переменной называется простой линейной регрессией; для более чем одного процесс называется множественной линейной регрессией. Объясним это очень просто. У нас есть некоторые функции, которые являются независимыми переменными, например, мы меняем наш вкус, это не влияет на то, что люди становятся богаче. Однако люди становятся богаче, может быть, поэтому у них больше детей, нам придется решить этот вопрос позже. Проданное количество будет зависимой переменной, поскольку оно зависит от других факторов — больше детей, больше мороженого, особенно летом.

Как выглядят данные? Глядя на IceCreamData ниже (источник: Kaggle), поскольку данные содержат только 1 независимую переменную и 1 зависимую переменную, мы можем применить модель «простой линейной регрессии» для прогнозирования дохода.

С данными, имеющими более 1 независимой переменной, мы можем применить модель «множественной линейной регрессии» для прогнозирования дохода.

Это все, что касается концепции линейной регрессии.