Публикации по теме 'data-engineering'


Запуск крупнейшего в мире блога по науке о данных!
Шанс выиграть гарантированное вознаграждение за каждую опубликованную статью!! Опубликуйте свою статью в блоге Data Science Blogathon, чтобы улучшить свой профиль и выиграть отличные призы! С более чем 1600 статьями, получившими тысячи просмотров в рамках Blogathons, мы продолжаем получать огромное количество отзывов от сообщества! Мы рады объявить о запуске 14th Data Science Blogathon компании Analytics Vidhya ! Вот что вы можете выиграть за каждую статью, опубликованную на..

Python Series #2 — Встроенные структуры данных
В этой статье мы рассмотрим некоторые встроенные структуры данных в Python. Некоторые из этих структур данных популярны и используются в каждой программе на Python, которую вы будете писать, например, списки , словари и кортежи . Другие структуры данных менее популярны и используются в определенных случаях, например наборы , frozensets , memoryview и Namedtuples . Каждая из этих встроенных структур данных имеет свои преимущества и недостатки, и мы должны выбрать правильную..

Автоматизируйте удаление старых файлов в Python
Чтобы каталоги были организованы, вы можете написать программу Python, которая ищет старые файлы в каталоге и удаляет их. Вы можете удалить их или переместить в каталог архива. Пример каталога, в котором нам не нужны старые файлы Предположим, у нас есть каталог, который используется для хранения изображений. Мы хотим иметь только…

Захватывающие идеи проектов по науке о данных, чтобы освежить свои навыки
7 идей современных проектов по науке о данных, которые вас вдохновят Проекты всегда рассматривались как измеримые улучшения, являющиеся результатом достигнутого результата, которые служат вишенкой на торте для достижения личных или корпоративных целей. Говоря об индивидуальных проектах, было ли вам сложно учиться дома? Многие из нас находятся в одной лодке — слишком много вещей, с которыми нужно справиться в эти трудные времена, и обучение отошло на второй план, вопреки нашим..

Масштабирование ИИ : проблемы и сравнение между Spark , Ray и Dask при распределенном обучении
По мере масштабирования модели мы начали запускать распределенные задания обучения с большим количеством данных и работников, и все более распространенными становятся более сложные шаблоны распределенного обучения. Таким образом, мы обнаружили ряд проблем, связанных с распределенным машинным обучением и глубоким обучением в масштабе: Отказоустойчивость и эластичное обучение. По мере того, как распределенные задания машинного обучения используют больше данных и рабочих процессов,..

Pandas GroupПо приложениям, которые должен знать каждый
Если вы работали с данными с помощью Python, скорее всего, вы столкнулись с Pandas. Pandas — мощная библиотека для манипулирования данными, и одним из ее наиболее универсальных инструментов является функция groupby . В этой статье мы рассмотрим некоторые практические применения groupby , которые могут улучшить ваш анализ данных и дать вам ценную информацию. Введение в GroupBy Прежде чем мы углубимся в конкретные приложения, давайте кратко разберемся, что делает groupby . По..

Размышления о путешествии моего инженера данных
Что я хотел бы знать три года назад Быть инженером данных может быть интересным, но сложным путешествием. Размышляя о своем трехлетнем опыте работы в этой области, я не могу не думать о совете, который дал себе в прошлом, когда только начинал. В этой статье я стремлюсь поделиться своими мыслями и пролить свет на мир Data Engineering, сделав его более доступным и понятным как для новичков, так и для тех, кто интересуется нашей ролью. Оглавление Чем на самом деле занимается Data..