Машинное обучение или статистическое моделирование: какое из них подходит для вашей бизнес-задачи?

какой из них подходит для вашей бизнес-задачи?

В нашем последнем блоге мы кратко представили статистическое моделирование (SM), которое используется организациями для преобразования данных в бизнес-идею, прежде чем машинное обучение (ML) вступит в игру. Продолжая нашу серию блогов об истории ML, эта вторая статья прольет свет на тему SM; наиболее точно, как оно отличается (если вообще) от ML и как компании могут решить, какой из них лучше подходит для удовлетворения их потребностей. И SM, и ML основаны на статистике. Мы начнем говорить об их отношении к статистике соответственно, а затем сравним их различия.

Вот план статьи. Вы можете перейти к наиболее интересующему вас разделу:

ML — это не просто прославление Статистика
СМ приближение к реальности
Различия между СМ и ML
Как выбрать SM и ML для вашего бизнеса?
Автоматизированное и объяснимое машинное обучение

1. ML — это не просто прославленная статистика

Статистика — это математическая наука, которая занимается сбором, анализом, интерпретацией или объяснением, а также представлением данных. Поскольку машинное обучение находит закономерности в больших объемах данных, очевидно, что машинное обучение основано на статистической структуре.

Однако машинное обучение опирается на многие другие области математики и информатики, например:

Теория машинного обучения (математика и статистика)
Алгоритмы машинного обучения (оптимизация)
Внедрения машинного обучения (информатика и инженерия)

2. СМ — приближение к реальности

SM — это простая математическая функция, используемая для аппроксимации реальности и, при необходимости, для предсказаний на основе этой аппроксимации. Например, если мы хотим доказать, что цена дома связана с квадратными метрами дома, мы можем использовать статистическую модель (например, Y=aX+b), чтобы понять эту связь. Мы можем собрать данные по 20 домам и проверить повторяемость взаимосвязи, чтобы точно охарактеризовать ее и сделать выводы.

3. Различия между SM и ML

Самая большая разница между статистикой и машинным обучением заключается в их целях. В то время как статистические модели используются для поиска и объяснения взаимосвязей между переменными, модели ML созданы для предоставления точных прогнозов без явного программирования. Хотя некоторые статистические модели могут делать прогнозы, точность этих моделей обычно не самая лучшая, поскольку они не могут фиксировать сложные взаимосвязи между данными. С другой стороны, модели машинного обучения могут давать более точные прогнозы, но их сложнее понять и объяснить.

Статистические модели явно задают вероятностную модель для данных и определяют переменные, которые обычно поддаются интерпретации и представляют особый интерес, например, влияние переменных-предикторов. В дополнение к выявлению взаимосвязей между переменными статистические модели устанавливают как масштаб, так и значимость взаимосвязи.

Напротив, модели машинного обучения более эмпиричны. ML обычно не устанавливает взаимосвязей между предикторами и результатами и не изолирует влияние какой-либо отдельной переменной.

Вернемся к примеру с домом. Ранее мы использовали статистическое моделирование, чтобы понять взаимосвязь между ценой и конкретным переменным квадратным футом. Если мы получим данные о 20 миллионах домов с 200 функциями в каждом и в основном хотим предсказать цену дома, мы можем использовать модель машинного обучения (например, нейронную сеть) с 200 переменными. Мы можем не понимать связи между переменными и смысл модели, но нам нужны точные прогнозы.

В таблице ниже сравниваются некоторые ключевые различия между SM и ML:

4. Как выбрать SM и ML для вашего бизнеса?

В деловом мире аналитика данных требует глубокого понимания бизнес-проблем, а также очень точных прогнозов. Для достижения желаемых результатов компаниям необходимо знать, какая ситуация требует той или иной модели. Это зависит от входных данных (таких как тип данных и объем данных), важности понимания взаимосвязей между переменными и, в конечном счете, от принимаемых решений.

Вы можете применять СМ, когда:

Вы понимаете конкретные эффекты взаимодействия между переменными. У вас есть предварительные знания об их взаимосвязях, например, прежде чем вы проанализируете вес и рост, вы знаете, что между этими двумя переменными существует положительная линейная зависимость.
Интерпретируемость важна. Вы должны соблюдать строгие правила, которые требуют от вас точного понимания того, как работают модели, особенно когда решение влияет на жизнь человека.
Ваши данные малы. Вы можете наблюдать и обрабатывать наборы данных лично, например, ваши данные могут быть собраны в файле Excel.

Например, больницы хотят выявлять людей, которым грозит неотложная госпитализация. Очень важно понимать особенности пациентов. Это полезная информация для разработки стратегий вмешательства, направленных на улучшение результатов ухода за такими пациентами. Например, имея данные о пациентах из 5 трастов первичной медицинской помощи в Англии, аналитик может выбрать SM для определения приоритетности пациентов для профилактической помощи.

Вы можете применять машинное обучение, когда:

Ваша цель — высокая точность прогнозов. Например, если вы работаете в страховой компании, вы не хотите принимать ложное требование мошенника и платить наличными, поэтому вы хотите, чтобы ваша модель прогнозирования мошеннического требования была максимально точной.
Интерпретируемость менее важна. Вас мало волнует, почему было принято решение. Способность понимать модель идеальна, но не обязательна.
Ваши данные большие. Вы не сможете обрабатывать данные лично. Например, индивидуальные карты пациентов и комплексная информация о диагнозах, лечении, лекарствах и многом другом.

Машинное обучение очень хорошо справляется с заранее определенными взаимодействиями. Например, компании обычно имеют огромную клиентскую базу данных с сотнями переменных, не зная, какие именно переменные определяют определенный тип клиентов. Чтобы сегментировать клиентов по разным типам для персонализированного маркетинга, модель должна с высокой точностью прогнозировать принадлежность отдельных лиц к сегменту. В этом случае мы выбираем модель ML.

5. Автоматизированное и объяснимое машинное обучение

SM имеет долгую историю, в то время как ML все еще развивается. Мы говорили о недостатках ML в его объяснимости, требованиях к предварительной обработке данных и дорогостоящей и редкой команде экспертов. Сегодня более продвинутому машинному обучению удалось преодолеть эти барьеры, позволив больше реальных приложений машинного обучения.

Эволюционная платформа оптимизации TurinTech позволяет людям с разным набором навыков автоматически создавать точные и объяснимые модели машинного обучения. TurinTech автоматизирует сквозной процесс машинного обучения, ускоряя весь процесс до нескольких дней (обычно это занимает месяцы) и устраняя технические барьеры входа для гражданских специалистов по данным. Все, от маркетологов до инженеров и специалистов по обработке и анализу данных, могут легко создавать модели машинного обучения, признанные мировыми экспертами.

Благодаря нашим запатентованным исследованиям в области эволюционной оптимизации модели эволюционируют сотни раз для достижения оптимальных результатов на основе настраиваемых критериев. Модели SM и ML будут создаваться и ранжироваться по заданным пользователем критериям, поэтому пользователи могут просто выбрать наилучшую модель, которую они предпочитают. В дополнение к нашему прозрачному процессу, платформа TurinTech предоставляет простые для понимания объяснения, например, почему и как модели делают определенные прогнозы.

О ТуринТех:

TurinTech является лидером в области эволюционной оптимизации ИИ. Мы основанная в 2018 году в Лондоне научно-исследовательская компания в области глубоких технологий.

Мы представляем себе интеллектуальный и эффективный деловой мир, основанный на масштабируемом искусственном интеллекте. Мы автоматизируем многоцелевую оптимизацию, чтобы помочь предприятиям эффективно масштабировать ИИ: быстрее создавайте ИИ, быстрее запускайте ИИ, внедряйте ИИ более экологично.

TurinTech опирается на более чем 10-летние исследования в области оптимизации. Мы профессора, специалисты по данным и инженеры из престижных университетов по всему миру, которые активно сотрудничают с ведущими мировыми академическими учреждениями для создания прорывов.

Узнайте больше о масштабировании ИИ на https://turintech.ai/
Следуйте за нами в LinkedIn, Medium, Twitter 😊

Первоначально опубликовано на https://turintech.ai.