Почему самая подходящая модель не всегда лучшая модель.

Недавно я наткнулся на вопрос на ResearchGate, который меня очень беспокоил. Вопрос предоставлял набор данных и спрашивал, как подогнать данные к модели. Было дано множество ответов. Некоторые предлагали полиномиальную подгонку. Некоторые предлагали логарифмическую подгонку. Некоторые предлагали использовать функцию квадратного корня. Но никто не спросил, что представляют собой данные.

Почему это так важно? Это потому, что вы всегда можете найти какую-то модель, которая соответствует заданному набору данных. На самом деле существует бесконечное количество моделей, которые соответствуют заданному конечному набору данных. На самом деле существует бесконечное количество многочленов, соответствующих конечному числу точек!

Нам нужно тщательно выбирать модели. А для этого нам нужно подумать о том, как должны вести себя наши переменные. Например, предположим, что у нас есть три переменные, и эти переменные влияют на уровень бедности, не имеет ли смысл, чтобы этот показатель был отрицательным или превышал 100%? Если у нас есть две переменные x и y, имеет ли смысл ограничивать наш анализ моделями вида y = mx + b? Почему мы можем предположить линейность?

Мы, как ученые, должны помнить, что мы пытаемся смоделировать реальность, а не данные. Мы всегда должны помнить об основных процессах, которые генерируют данные. Например, возвращаясь к вопросу, на который я ссылался, выясняется, что человек пытался смоделировать поглощение во времени. Я до сих пор не совсем понимаю, что именно, но знание того, что мы моделируем поглощение, действительно помогает. Почему?

Вот рассуждения. Если у вас есть абсорбирующий материал, он может абсорбировать только на полную мощность. И имеет смысл, что чем больше он поглощается, тем труднее ему поглощать больше. Другими словами, скорость всасывания начинается с полной скорости и снижается до нуля по мере всасывания большего количества вещества. Скорость и решение следующие:

Таким образом, мы ожидаем экспоненциальную функцию, асимптотически возрастающую к единице. И данные оправдывают этот результат. Итак, теперь у нас есть реальная причина чувствовать себя уверенно в нашей модели. Конечно, возможно, совпадение не идеально, но мы не должны пытаться найти функцию, которая даст нам хорошее соответствие регрессии.

Не поймите меня неправильно. Просто посмотреть на набор данных и попытаться выяснить, какую форму он имеет, может быть полезно, когда вы понятия не имеете, может ли быть связь между переменными, или не знаете, какая связь должна быть. Однако, если мы пытаемся сопоставить графики со всем набором данных, то нам больше нечего делать, чтобы обосновать это позже. Мы всегда можем найти какую-то модель, которая будет работать, и мы можем найти модель, которая может «очень хорошо» соответствовать данным. Но мы должны найти модели, которые имеют смысл. В противном случае мы занимаемся плохой наукой.

‹ Master Index|Философия|

Вы могли бы