Публикации по теме 'data-engineering'


12 лучших магических команд в Jupyter
Используйте эти волшебные команды и повысьте свою продуктивность Блокнот Jupyter был де-факто средой для развития всего, что связано с наукой о данных. Неудивительно, что сейчас разрабатывается множество активных расширений, облегчающих нашу жизнь. Одним из таких удобств является волшебная команда , которая часто начинается с % или %% . Если вы раньше использовали и играли с записными книжками Jupyter, скорее всего, вы уже сталкивались с ними раньше. В этом посте мы узнаем..

Конвейер микросервисов для инфраструктуры промышленного Интернета вещей (IIOT)… к данным…
Это моя первая публикация на Medium, в которой я делюсь отрывком из моей магистерской диссертации; как Архитектура микросервисов помогла мне разработать структуру для Промышленного Интернета вещей за 6 месяцев. Это также с намерением написать для студентов, которые стремятся к своей диссертации (или проекту последнего года), для новых разработчиков, стремящихся изучить поток того, как несколько небольших приложений могут играть большую роль в приложении корпоративного уровня, и для всех..

Масштабирование машинного обучения
Наша команда запускает десятки производственных моделей машинного обучения ежедневно, еженедельно и ежемесячно. Недавно мы провели редизайн нашей инфраструктуры машинного обучения, чтобы расширить ее возможности для обеспечения самообслуживания, масштабирования в соответствии с вычислительными потребностями, уменьшения влияния моделей, работающих на одной и той же виртуальной машине, и устранения различий между средами разработки и производственной средой. В этом посте я опишу проблемы, с..

Введение в контролируемое машинное обучение для инженеров данных
Зачем изучать машинное обучение? Машинное обучение — это особая ветвь ИИ, которая фокусируется на методах автоматизации принятия решений (обучения). Расширенные цели машинного обучения позволяют компьютерам делать это без явного программирования на основе правил. Если вы инженер данных, вы можете поддержать свою организацию, преодолев разрыв между необработанными данными и специалистами по данным, которые стремятся включить эти данные в модели машинного обучения. В ситуациях с..

Введение в Apache Airflow
Отличный инструмент автоматизации конвейера, который стоит изучить как специалист по данным Что такое Apache Airflow? Важная часть работы специалиста по обработке данных - это возможность автоматически разрабатывать модели и создавать отчеты. Для моделей, которые требуют периодического сбора данных, создания отчетов за период и т. Д. Программы, запускаемые вручную, отнимают много времени и не масштабируются. Возможность автоматизировать весь конвейер данных для создания отчетов..

Гарантия согласованности в ваших таблицах Delta Lake
Узнайте, как интегрировать перехватчики lakeFS для проверки данных о коммитах. Один из наиболее частых вопросов, который мы получаем от существующих и потенциальных пользователей lakeFS: Может ли он работать с« Delta Tables ? » Понятно, почему мы слышим этот вопрос, учитывая быстрое внедрение и расширенные возможности Delta, в том числе: Операции ACID на уровне таблицы Мутации данных, включая удаления и обновления «на месте» Расширенные возможности секционирования и..

RDD-DF-DS-SSQL
TL;DR: примеры и различия между различными API Spark. Полный исполняемый код с выводом доступен здесь: http://goo.gl/EdrCUo ( https://databricks-prod-cloudfront.cloud.databricks.com/public/4027ec902e239c93eaaa8714f173bcfc/6374798392727515/2002375612871426/4076179716382534/latest.html ) Гитхаб: https://github.com/anoopdixith/RDD-DF-DS-SSQL Подробности: Я понял, что большинство людей, которые присоединяются к нашей компании и являются новичками в экосистеме Spark, ошеломлены..