Публикации по теме 'data-engineering'
Какой самый эффективный способ решения задач в программировании
Что такое инженерия? «минимальная стоимость, максимальная производительность» звучит красиво, но в программировании размеры разные. Стабильность, эластичность, совместимость, производительность — да, это четырехмерный мир.
С точки зрения конечного пользователя стабильные программы более ценны, чем что-либо еще. Может быть, причина отнимает время, а время = деньги. независимо от того.
Я попытаюсь выяснить сходство между реальными (3D) инженерными решениями и программными решениями...
Многопоточность и кэширование для повышения производительности ввода/вывода
Автор: Ганеш Гс
Введение
В этой статье основное внимание уделяется подробному объяснению того, как можно уменьшить задержку для связанных операций ввода-вывода. Чаще всего мы наблюдаем повышенную задержку при чтении/записи данных на диск, в сеть или в любых режимах хранения данных. Эта задержка связана со временем, затрачиваемым на ожидание завершения операций ввода/вывода. Помня обо всем этом, давайте обсудим несколько методов, позволяющих добиться наилучшего « уменьшения..
Воздушный поток: декораторы для чистого конвейера данных
Как абстрагироваться от сложности конвейера данных с помощью декораторов Airflow
Представьте себе сценарий, в котором вам нужно выполнять несколько ежедневных заданий для извлечения данных из озера данных, их предварительной обработки и сохранения очищенных наборов данных в выделенной базе данных. Было бы чрезвычайно утомительно, если бы нам приходилось запускать конвейер каждый день, постоянно проверяя возможные ошибки. Здесь вам пригодится Airflow: он предоставляет вам все инструменты..
Еще 21 горячие инструменты для работы с данными и то, чего они не делают
В последние несколько месяцев экосистема данных продолжала развиваться по мере консолидации некоторых частей стека и возникновения новых проблем. Наша первая попытка помочь заинтересованным сторонам сориентироваться в этой экосистеме была посвящена 25 горячим новым инструментам обработки данных и тому, что они не делают - разъяснению конкретных проблем, которые указанные компании и проекты решали и НЕ решали.
Эти усилия были положительно восприняты сообществом специалистов по..
Учебное пособие по проектированию данных с Databricks: часть I
Инжиниринг данных становится одной из самых востребованных ролей в сфере технологий. Узнайте, как стать инженером по обработке данных, используя Databricks, платформу данных для искусственного интеллекта и аналитики.
Современные информационные системы работают с огромными потоками данных, которые увеличиваются с каждым днем в геометрической прогрессии. Этот поток поступает из различных источников, включая информацию о продажах, транзакционные данные, социальные сети и т. Д...
Почему я присоединяюсь к lakeFS
Мысли о личном путешествии в мир защиты интересов разработчиков в проекте с открытым исходным кодом.
В марте 2021 года я решил покинуть группу обработки данных в Equinox Media и присоединиться к зарождающемуся проекту с открытым исходным кодом lakeFS в качестве первого защитника разработчиков. В этом посте я расскажу о нескольких причинах, по которым я рад начать эту новую главу, и о целях, которых я надеюсь достичь.
lakeFS Проект
Первое, что вам нужно сделать при изменении..
Возникновение с URL-адресами конечных точек AWS
Совершенно логично, что если вы наберете aws s3 ls s3://my-bucket для вывода содержимого корзины S3, вы ожидаете, что подключитесь к подлинной корзине и увидите ее содержимое.
Но у вас нет жесткого правила иметь для подключения к настоящему сегменту. Фактически, есть простой параметр , который вы можете передать в приведенную выше команду CLI, чтобы вместо этого легко подключиться к любому URL-адресу по вашему выбору.
Учтите следующее:
$ aws s3 ls s3://my-bucket..