«Важно помнить, что когда речь идет о науке о данных, цель не должна состоять в том, чтобы влюбиться в модели или кодирование, а в том, чтобы влюбиться в идеи, которые можно извлечь из данных. Модели и кодирование — это просто инструменты, которые позволяют нам получить эти знания, поэтому важно сосредоточиться на конечной цели — извлечении полезной информации и знаний из данных». Это было написано полностью AI. С openai.com

Как и при любом анализе данных, важен контекст. Выходные, Мадрид, тапас, каньяс, ботаники и рассказы о том, как меняется наука о данных. Самое интересное, что там был срез людей. Инженеры, статистики, экономисты, менеджмент, отдел кадров и наука о данных. Географическое распределение также было довольно хорошо распределено, по крайней мере, между латиноамериканцами и европейцами. Так что какие-то выводы со статистической весомостью, по крайней мере, в кругу друзей, мы могли бы сделать.

Итак, делюсь некоторыми выводами, которые я могу сделать, и которые меня очень обеспокоили:

  1. Есть люди, которые очень любят программирование, а не проблему, которую хотят решить.
  2. Есть люди, которые хотят использовать новейший алгоритм, открытый в Массачусетском технологическом институте, Стэнфорде или Google, в 5-тысячелетнем секторе, с культурой компании из XX века.
  3. Есть люди, которые любят модель больше, чем решение проблемы принятия решений.
  4. Некоторые люди спрашивают вас, какую библиотеку вы используете, прежде чем спросить, что вы хотите решить.
  5. Некоторые люди предпочитают использовать XGBoost (потому что они прочитали последний технический пост), а не другую модель, которая может иметь немного меньшую точность, но ее можно развернуть гораздо быстрее.
  6. Есть люди, которые пишут код, когда их идеал состоит в том, чтобы заставить этот код делать что-то похожее (и, как правило, хуже) на Excel, SAS или SPSS.
  7. Есть люди, которые много внимания уделяют технологической инфраструктуре и забывают о том, что нужен бизнес-результат. Если выручки нет, то трудно увеличить расходы.
  8. Есть люди, которые боятся lowcode больше, чем Фредди Крюгера.
  9. Есть люди, которые запускают продукты, как если бы они были уникальными. Пример Quantumblack (McKinsey AI) с ее CausalNex (здесь), основанной на библиотеке Google на CausalImpact (здесь). В 90% они делают то же самое.

Очевидно, что предыдущие комментарии необъективны. Это были не все плохие новости, но они меня беспокоят. Наука о данных существует уже давно и всегда заключалась в поиске закономерностей и предоставлении фактов лицам, принимающим решения. На самом деле некоторые решения настолько просты и рутинны, что их можно систематизировать с помощью предписывающей аналитики. И используйте время принятия решений только в тех случаях, когда требуется больше творчества.

Кодирование не является предметом обсуждения. Сравнение моделей не является ключом к науке о данных. Тебя спрашивают, какую модель ты используешь? вы использовали XGBoost для моделирования? Какие библиотеки вы используете? Я считаю, что это огромная потеря времени. И это не является предвестником чего-либо. И если я скажу вам, что использую SPSS Modeler и что при загрузке базы данных и определении цели он автоматически рекомендует все возможные модели. Я нажимаю «Выполнить», и он дает мне отчет с производительностью каждой модели. Это специалист по данным? Что, если я сделаю то же самое с Python, и результат будет таким же, стану ли я лучшим специалистом по данным?

Посмотрите на модели, которые используются в зависимости от того, где вы работаете (промышленность, наука или исследования).

Источник: KDnuggets & Forrester

Проблема в том, что многие люди, работающие в отрасли, хотят использовать модели, которые используют те, кто работает в научных кругах. И я не говорю, что люди, которые работают в отрасли, не внедряют инновации на основе науки о данных (или моделей), я говорю, что инновации в отрасли находятся в 4D, о которых я говорил в этом посте (« здесь"). Разработка проблемы инновационным способом (отток, дефолт и т. д. не являются инновационными). Определите, какие данные вы собираетесь использовать. Собираетесь ли вы использовать дифференцированные, альтернативные, дополнительные данные или будете использовать данные компании (необъективно) и добавлять данные из желтых страниц?

Что касается разработки, как вы собираетесь разрабатывать алгоритмы? Сегодня в отрасли все более-менее в пределах достаточно небольшого запаса. Поверьте мне, за последние 3 или 4 года я разработал несколько моделей и развернул их, все они основаны на коде (в основном на R, потому что потребность в большей статистической мощности была важна).

На академическом уровне для моей диссертации McS по статистике я разработал 5 различных моделей выживания, чтобы посмотреть, как они работают. В своей докторской диссертации я использовал модель Dif in Dif для анализа влияния (налоговых) стимулов на инвестиционные решения. Использовали авторегрессионную скользящую среднюю, чтобы понять поведение Covid в Уругвае. Я использовал ANN, RNN и CNN, чтобы разработать предиктор дохода для всего населения Уругвая. Я использовал ANN и MLR, чтобы понять склонность нескольких клиентов финансовых учреждений (+200 тыс. клиентов). Я использовал MLR, чтобы сделать вывод о цене головы крупного рогатого скота в аукционных процессах. Используйте CausalImpact, чтобы узнать, оказали ли изменения в правительстве Великобритании серьезное влияние на фунт (здесь). И поверьте, я могу продолжать.

На самом деле, я оставляю здесь сравнение моделей, чтобы понять, как предсказать, «будут ли акции иметь дивиденды или нет». Я оставляю это здесь. Весь код. Это бесплатно. Используй это. Ни одна компания не сможет добиться конкурентного преимущества на основе этого кода, но если вы являетесь малым и средним бизнесом и вам нужна моя помощь, отправьте мне сообщение, и я помогу вам бесплатно.

Источник: собственная разработка в R

Инновации в науке о данных заключаются не в том, сколько библиотек вы используете. Или если вы используете Python. Или кодируете ли вы или используете lowcode. Программируете ли вы или используете SAS, SPSS или Excel, это где-то еще.

Именно в понимании возникают проблемы, если вы делаете выводы без учета эргодичности, не зная, что такое моральный риск или неблагоприятный отбор, не понимая, что вы не можете смоделировать хаотический эксперимент на основе Байеса, не зная, что энтропия подразумевает для базы данных, в непонимание того, что информационную асимметрию можно рассматривать с разных точек зрения (как это сделали Джордж А. Акерлоф, А. Майкл Спенс и Джозеф Э. Стиглиц) при разработке вложенных моделей, способных сообщить нам, будет ли ВОЗ (люди или компании) ЧТО (склонность , возникновение, дефолт, сбор, отток и т. д.), но также знать, КОГДА они будут, не зная, что в рамках теории ценности у нас есть как минимум 3 этапа: создание, присвоение и распределение ценности. И многие другие концепции, поддерживающие науку о данных в бизнесе (в других областях знания другие, но концепция идентична).

И правда в том, что это не имеет ничего общего с библиотеками Python/R, это связано с творчеством, с эволюцией дисциплины, основанной на способности находить закономерности, генерировать идеи, принимать лучшие решения, оптимизировать теорию ценности и иметь возможность создавать динамичные и устойчивые конкурентные преимущества.

Вы идентифицируете себя как латиноамериканца и работаете в области искусственного интеллекта или знаете кого-то из латиноамериканца и работает в области искусственного интеллекта?

Не забудьте нажать 👏 ниже, чтобы поддержать наше сообщество — это очень много значит!

Спасибо :)