Статьи по теме data-engineering

Публикации по теме 'data-engineering'

Пример промышленного использования API-интерфейсов JavaScript для хранимых процедур Snowflake

В этом разделе рассматривается API JavaScript для хранимых процедур Snowflake. API состоит из объектов JavaScript и методов этих объектов. Хранимая процедура содержит логику, которую вы пишете, поэтому вы можете вызывать ее из SQL. Хранимая процедура обычно выполняет операции с базой данных или транзакции, выполняя операторы SQL. Давайте обсудим, как проводить отладку при использовании процедуры. И давайте сосредоточимся на том, как отслеживать эти ошибки/журналы для сбоев, а..

Роли в науке о данных

Исследуйте свои возможности в новой захватывающей области В настоящее время кажется, что все хотят работать в сфере науки о данных . Но наука о данных — это область, в которой существует гораздо больше, чем один тип работы. В этой статье мы кратко рассмотрим специалиста по данным , аналитика данных , инженера данных , администратора базы данных и Инженер искусственного интеллекта и узнайте, как их навыки и обязанности…

Лучшие инструменты и технологии, необходимые для обработки данных в 2022 году

Эта статья расскажет вам, какие инструменты необходимы для перехода к инженерии данных. Поскольку существует множество инструментов, которые можно использовать в различных аспектах проектов, в большинстве случаев вы обнаружите, что некоторые инструменты очень распространены. Ниже приведены 3 основных инструмента, которые необходимо учитывать при разработке данных: 1) SQL . Работа с данными — самое важное в инженерии данных. Это самый важный инструмент, который могут использовать..

pyblux — это пакет Python, который предоставляет набор утилит ETL, созданных для взаимодействия…

pyblux — это пакет Python, который предоставляет набор утилит ETL, созданных для быстрого, простого и интуитивно понятного взаимодействия с облачными и локальными базами данных. Функции Поддержка нескольких баз данных, включая Postgres, MySql, MS SQL, SQLIte, Teradata и Oracle. Метод get_engine упрощает подключение к базам данных простым и интуитивно понятным способом. Метод Blux.sql из класса Blux помогает выполнять быстрые запросы. Он предоставляет выходные результаты в виде..

Бурно развивающиеся библиотеки по науке о данных

PyCaret PyCaret — одна из тех библиотек AutoML с подходом с минимальным кодом для большинства задач машинного обучения, которые мы выполняем вручную. Он имеет специальные функции для обучения моделей, анализа моделей, развертывания и сборки, которых нет во многих других платформах машинного обучения. Оптуна Optuna — это набор инструментов для оптимизации гиперпараметров с открытым исходным кодом, предназначенный для работы с машинным и немашинным обучением. Он..

Kafka со Spark Streaming — разные подходы к чтению данных

Объяснение типов потоков, которые PySpark предоставляет для работы с Kafka вступление Apache Kafka — это распределенная система обмена сообщениями, которая позволяет публиковать потоки записей и подписываться на них. Kafka — это распределенная потоковая платформа, которая позволяет публиковать, подписываться, хранить и обрабатывать…

Будущее автоматизации рабочих процессов: Airflow, Mage и Kestra

Примечание. Следующая запись в блоге отражает мои личные взгляды и мнения о развитии автоматизации рабочих процессов и роли Airflow, Mage и Kestra. Как технологический энтузиаст, я всегда рад изучить последние достижения в области автоматизации рабочих процессов. В последние годы в этой области произошел значительный прогресс, и три заметных инструмента стали заметными игроками: Airflow, Mage и Kestra. В этой записи блога я подробно расскажу об этих инструментах, расскажу об их..