Прежде чем начать статью, я хочу упомянуть наш канал Discord Geeks of Data. Вы можете присоединиться, поздороваться и обменяться идеями о науке о данных, инженерии или анализе.🚀 Ссылка

В этом уроке мы покажем, как получить модель, готовую к использованию для прогнозирования цен на жилье, обученную на конкурсе Цены на жилье — передовые методы регрессии от Kaggle.

На протяжении всего этого процесса мы будем использовать MindsDB. MindsDB позволяет вам использовать ценные данные вашей базы данных, чтобы быстрее делать прогнозы, интегрируя машинное обучение непосредственно в базу данных. Вы можете создавать, обучать, оптимизировать и развертывать модели машинного обучения без использования дополнительных платформ. Просто запросите свои данные, чтобы получить прогнозы/прогнозы. В этом руководстве не рассматривается часть установки, но вы можете использовать эту ссылку, чтобы узнать, как начать использовать MindsDB.

Мы собираемся использовать обучающие данные со страницы конкурса, чтобы обобщить цель проекта, допустим, вы спрашиваете покупателя дома об его идеальном доме, они, скорее всего, не будут упоминать такие факторы, как высота потолка в подвале или расстояние. от железной дороги. Однако этот набор данных конкурса игровых площадок показывает, что многие другие факторы, помимо количества спален или белых заборов, влияют на ценовые переговоры. Набор данных состоит из 79 признаков, описывающих почти каждый аспект жилых домов в Эймсе, штат Айова. Задача состоит в том, чтобы предсказать окончательную цену каждого дома, используя эту информацию. Эти функции состоят из такой информации, как MSSubClass (класс здания), LotArea, улица, переулок и т. д.

Чтобы начать использовать наши данные, достаточно загрузить их в виде файла в наш экземпляр MindsDB. Если бы у нас были данные на другой платформе, мы вполне могли бы интегрировать их, используя функции добавления данных MindsDB.

После загрузки файла мы можем получить доступ к нашим данным, просто используя SQL-запрос. Поскольку мы загрузили его в виде файла, он автоматически помещается в каталог «файлы».

Обучение модели столь же тривиально, да, вы не ослышались, «обучение модели так же тривиально, как выполнение базового запроса SELECT». :)

Мы используем специальный запрос CREATE MODEL, но CREATE PREDICTOR также будет работать для той же цели, здесь мы создаем модель с именем «house_price_predictor» в каталоге «mindsdb», затем мы показываем файл, который мы хотим обучить. наша модель и, наконец, мы указываем, какую функцию предсказать, в нашем случае это «SalePrice».

Мы можем использовать несколько других запросов, чтобы проверить, какие модели у нас есть, и мы можем получить подробный обзор свойств, которые они несут.

Как видно выше, у нас есть оценка r2 0,912 для этой модели, она также дает оценку каждому столбцу в зависимости от их важности для окончательных результатов.

Наконец, чтобы получить прогнозы, мы можем просто запросить нашу модель и увидеть результат.

Выше приведен пример запроса, и он не слишком отличается от того, что можно было бы ожидать. Здесь следует обратить внимание на 2 особенности:

Мы можем запросить нашу модель, чтобы получить прогноз и его обоснование, используя синтаксис наподобие

ВЫБЕРИТЕ [цель], [цель_объясните]

Другим важным аспектом является прямой запрос нашей модели, а не таблица данных, которую мы изначально представили.

Как видно выше, наш прогноз выглядит разумным и объясняет, как мы пришли к такому выводу.

Большое спасибо, что читаете и следите за новостями, друзья. Если вы хотите получить доступ к подобному контенту и провести время с любознательными, умными и трудолюбивыми коллегами, мы также приветствуем вас на нашем сервере Discord. 🚀 Ссылка