Публикации по теме 'data-engineering'


Google Data Fusion с Cloud Composer в качестве решения для сбора данных
Data Fusion - это облачное решение Google для построения конвейеров данных без какого-либо кода, хотя решение имеет некоторые ограничения (пока) при использовании вместе с Cloud Composer становится действительно мощным инструментом для создания озер данных. Давайте поговорим о проблемах с Data Fusion: Поэтому для меня самым большим ограничением, которое я обнаружил с Data Fusion, является то, что вы не можете передавать динамические параметры, единственный динамический параметр,..

Контролируемое машинное обучение — Обзор бинарной логистической регрессии
Контролируемое машинное обучение — Обзор бинарной логистической регрессии Прогнозное моделирование (или машинное обучение) может быть сложным для понимания и использования, потому что не существует единого алгоритма, который бы лучше всего работал для каждой проблемы. Поэтому вы должны применять разные методы для своего прогноза, оценивать их эффективность и только потом выбирать самый сильный алгоритм. В этой статье я рассмотрю некоторые варианты использования логистической регрессии..

Я начал изучать Scala как программист на Python. Вот почему.
Python отлично подходит для науки о данных. Что касается инженерии данных, вот почему вам следует рассмотреть возможность изучения Scala как части вашего набора инструментов для программирования. Мотивы для изучения Scala Одна из моих технических целей в 2021 году - изучить Scala. Моя основная причина изучения Scala - это изучение функционального программирования для инженерии данных. Возникает вопрос: зачем тратить силы на изучение Scala, если функциональное программирование..

Рабочие роли на основе данных
Взрыв в науке о данных создал и переопределил несколько профессий. Наука о данных и машинное обучение — относительно новые профессии в прикладной сфере. Круг кандидатов на должности в области науки о данных расширился и теперь включает специалистов по информатике, математиков и физиков, а также выпускников бизнес-школ, экономистов и других социологов. В этом пространстве процветает путаница ролей. В настоящее время в области науки о данных есть три должности высшего уровня:..

Учредительное письмо Гильдии ИИ
Открытое письмо членов AI Guild нынешним и будущим членам AI Guild. Уважаемые члены гильдии AI! Мы встретились 25 мая 2019 года для запуска AI Guild . Мы более 100 профессионалов в области искусственного интеллекта из более чем 30 стран, которые сотрудничают и поддерживают друг друга. Умышленно половина первоначальных членов - мужчины; и половина - женщины. Мы проводили целевые семинары Гильдии ИИ для участников, чтобы создать общую отправную точку. Мы создали Гильдию ИИ, чтобы..

Понимание максимизации ожиданий и мягкой кластеризации
Руки вверх Этот мощный алгоритм предоставит вам для каждой имеющейся у вас точки данных вектор вероятностей ( Я забыл название такого вектора, оно есть! ). Каждая вероятность будет относиться к каждому кластеру, которому вы пытаетесь назначить точку данных. Исходя из этого, вы можете поместить точку в кластер, к которому она более вероятно принадлежит. Это алгоритм мягкой кластеризации , поскольку он вряд ли скажет, какая точка принадлежит какому кластеру. Он скажет вам:..

Использование кластеров Databricks в конвейерах машинного обучения
Запускайте производственные задания Spark и обучайте модели машинного обучения в кластерах заданий Databricks. В этом посте я хотел бы описать свой опыт выполнения производственных заданий Spark и ML в кластерах заданий Databricks. Пока что я большой поклонник решений Databricks, поскольку считаю их намного лучше, чем альтернативы, которые я ' использовал, и нет - я не сотрудник Databricks. В своей повседневной работе я разрабатываю автоматизированную платформу прогнозной аналитики..