Публикации по теме 'data-engineering'


Какой самый эффективный способ решения задач в программировании
Что такое инженерия? «минимальная стоимость, максимальная производительность» звучит красиво, но в программировании размеры разные. Стабильность, эластичность, совместимость, производительность — да, это четырехмерный мир. С точки зрения конечного пользователя стабильные программы более ценны, чем что-либо еще. Может быть, причина отнимает время, а время = деньги. независимо от того. Я попытаюсь выяснить сходство между реальными (3D) инженерными решениями и программными решениями...

Многопоточность и кэширование для повышения производительности ввода/вывода
Автор: Ганеш Гс Введение В этой статье основное внимание уделяется подробному объяснению того, как можно уменьшить задержку для связанных операций ввода-вывода. Чаще всего мы наблюдаем повышенную задержку при чтении/записи данных на диск, в сеть или в любых режимах хранения данных. Эта задержка связана со временем, затрачиваемым на ожидание завершения операций ввода/вывода. Помня обо всем этом, давайте обсудим несколько методов, позволяющих добиться наилучшего « уменьшения..

Воздушный поток: декораторы для чистого конвейера данных
Как абстрагироваться от сложности конвейера данных с помощью декораторов Airflow Представьте себе сценарий, в котором вам нужно выполнять несколько ежедневных заданий для извлечения данных из озера данных, их предварительной обработки и сохранения очищенных наборов данных в выделенной базе данных. Было бы чрезвычайно утомительно, если бы нам приходилось запускать конвейер каждый день, постоянно проверяя возможные ошибки. Здесь вам пригодится Airflow: он предоставляет вам все инструменты..

Еще 21 горячие инструменты для работы с данными и то, чего они не делают
В последние несколько месяцев экосистема данных продолжала развиваться по мере консолидации некоторых частей стека и возникновения новых проблем. Наша первая попытка помочь заинтересованным сторонам сориентироваться в этой экосистеме была посвящена 25 горячим новым инструментам обработки данных и тому, что они не делают - разъяснению конкретных проблем, которые указанные компании и проекты решали и НЕ решали. Эти усилия были положительно восприняты сообществом специалистов по..

Учебное пособие по проектированию данных с Databricks: часть I
Инжиниринг данных становится одной из самых востребованных ролей в сфере технологий. Узнайте, как стать инженером по обработке данных, используя Databricks, платформу данных для искусственного интеллекта и аналитики. Современные информационные системы работают с огромными потоками данных, которые увеличиваются с каждым днем ​​в геометрической прогрессии. Этот поток поступает из различных источников, включая информацию о продажах, транзакционные данные, социальные сети и т. Д...

Почему я присоединяюсь к lakeFS
Мысли о личном путешествии в мир защиты интересов разработчиков в проекте с открытым исходным кодом. В марте 2021 года я решил покинуть группу обработки данных в Equinox Media и присоединиться к зарождающемуся проекту с открытым исходным кодом lakeFS в качестве первого защитника разработчиков. В этом посте я расскажу о нескольких причинах, по которым я рад начать эту новую главу, и о целях, которых я надеюсь достичь. lakeFS Проект Первое, что вам нужно сделать при изменении..

Возникновение с URL-адресами конечных точек AWS
Совершенно логично, что если вы наберете aws s3 ls s3://my-bucket для вывода содержимого корзины S3, вы ожидаете, что подключитесь к подлинной корзине и увидите ее содержимое. Но у вас нет жесткого правила иметь для подключения к настоящему сегменту. Фактически, есть простой параметр , который вы можете передать в приведенную выше команду CLI, чтобы вместо этого легко подключиться к любому URL-адресу по вашему выбору. Учтите следующее: $ aws s3 ls s3://my-bucket..