Вопросы по теме 'dask-distributed'

Доступ к одному элементу в большом опубликованном массиве с помощью Dask
Есть ли более быстрый способ получить только один элемент в большом опубликованном массиве с помощью Dask без получения всего массива? В приведенном ниже примере client.get_dataset ('array1') [0] занимает примерно то же время, что и...
450 просмотров
schedule 01.11.2021

Как реплицировать данные, если их вычислить быстрее, чем передать в распределенных dask?
У меня есть большой объект (150 МБ), который мне нужно передать всем распределенным рабочим dask, чтобы его можно было использовать в будущих задачах. Я пробовал несколько подходов: Client.scatter(broadcast=True) : Это требовало отправки всех...
236 просмотров
schedule 18.10.2021

jupyter lab открыть iframe на вкладке для мониторинга планировщика dask
Я разрабатываю с распределенным dask, и этот пакет обеспечивает очень полезное представление отладки в качестве приложения с эффектом боке. Я хочу, чтобы это приложение было рядом с моей записной книжкой на вкладке jupyterlab. Мне удалось это...
783 просмотров

dask worker не может импортировать модуль
Я запускаю кластер dask и рабочий w. 16 ядер с использованием утилит CLI. В целом вроде работает очень хорошо. Однако по какой-то причине он не будет импортировать модули в cwd. Я пытаюсь запустить на своем экземпляре записной книжки следующее:...
659 просмотров

Принудительная локализация на подмножествах фреймов данных Dask
Я пытаюсь распределить большой фрейм данных Dask на нескольких машинах для (позже) распределенных вычислений в фрейме данных. Для этого я использую dask-distribution. Все примеры / документы с распределением dask, которые я вижу, заполняют...
235 просмотров
schedule 12.09.2021

Dask - Как отменить и повторно отправить зависшие задачи?
Часто я сталкиваюсь с проблемой, когда Dask случайным образом останавливается на нескольких задачах, обычно связанных с чтением данных с другого узла в моей сети (подробнее об этом ниже). Это может произойти после нескольких часов работы скрипта без...
542 просмотров

Разрешает ли Dask индексирование с помощью серии Dask?
Я наблюдаю поведение, которое похоже на ошибку в Dask, но я хочу убедиться, что я не делаю что-то не так. У меня есть фрейм данных Dask под названием labeled_texts . Он содержит столбец с названием «текст». Я вычисляю серию Dask под названием...
64 просмотров
schedule 05.11.2021

Невозможно установить адрес прослушивания няни для dask-worker
При запуске dask-worker мне нужно явно указать адрес няни, опубликованный в планировщике, и я не могу найти, как это сделать. Кто-нибудь знает? Что я пытаюсь сделать: я запускаю dask-worker на виртуальной машине Ubuntu (WSL 2 / Windows 10), которая...
104 просмотров
schedule 23.09.2021

Задайте вопрос, как определить настраиваемую (временную) функцию, которая работает параллельно и возвращает фрейм данных с другой формой
Я пытаюсь реализовать функцию временного сворачивания для «сопоставления» с различными разделами фрейма данных dask, который, в свою очередь, изменяет форму рассматриваемого фрейма данных (или, альтернативно, создает новый фрейм данных с измененной...
389 просмотров

Как лучше всего преобразовать коллекцию файлов NetCDF в набор данных Zarr
Я пытаюсь переработать коллекцию файлов NetCDF и создать набор данных Zarr на AWS S3. У меня есть 168 оригинальных классических файлов NetCDF4 с массивами размерности time: 1, y: 3840, x: 4608 , разбитых как chunks={'time':1, 'y':768, 'x':922} ....
1170 просмотров

Создание графа вычислений в dask
До сих пор я использовал dask с get и словарем для определения графа зависимостей моих задач. Но это означает, что я должен определить весь свой график с самого начала, и теперь я хочу добавлять время от времени новые задачи (с зависимостями от...
364 просмотров

FileNotFoundError при выполнении Dask dekayed и вычисления
Я новичок в параллельной обработке и прошу приложение. Итак, у меня есть тысячи файлов, которые я хочу запускать параллельно, поэтому я использую для этого вычисления Dask. Мои рабочие и ядра распределены правильно. И я запускаю все в JuputerLab...
60 просмотров

Dask drop дублирует ошибки памяти split_out
У меня есть большой фрейм данных parquet dask (40 ГБ) с 600 разделами, и мне нужно drop_duplicates с dask. Я заметил, что простой drop_duplicates всегда приводит к 1 разделу, поэтому я включил "split_out". Паркетный файл с разделами был создан...
546 просмотров

Как правильно установить рабочие порты в SSHCluster, распределенном по Dask?
Я пытаюсь использовать Dask для распределения работы с машины (назовите ее A) на 4 серверах в центре обработки данных (назовите их B, C, D и E). A должен настроить SSHCluster, назначив планировщику жить на B, который затем должен порождать рабочих на...
252 просмотров
schedule 07.03.2022

Как разместить набор данных в кластере gcloud kubernetes?
У меня инициализирован кластер gcloud Kubernetes, и я использую Dask Client на моем локальном компьютере для подключения к кластеру, но я не могу найти никакой документации о том, как загрузить свой набор данных в кластер. Первоначально я пытался...
266 просмотров

Dask не показывает индикатор выполнения
Когда я запускаю это, я вижу только индикатор выполнения , а я нет. from math import factorial from dask.diagnostics import ProgressBar from dask.distributed import Client def dask_progress(): client = Client() print(client) m =...
313 просмотров
schedule 29.03.2022

Как разделить большой объект, доступный только для чтения, между распределенными воркерами Dask
Эта проблема Я пытаюсь отправить объект CPython размером 2 ГБ только для чтения (можно мариновать) распределенным рабочим dask через apply() . Это приводит к потреблению большого количества памяти для процессов / потоков (14+ ГБ). Есть ли...
671 просмотров

Dask Distributed: Распараллеливание чтения и анализа большого количества отдельных файлов.
Вопрос Как мне использовать Dask Distributed для распараллеливания чтения каталога файлов в отдельные DataFrames, которые я затем обрабатываю с помощью настраиваемой функции? Предположим, что n-файлов - это что-то вроде 100000 Фон Я...
316 просмотров
schedule 21.04.2022

Dask aysncio tornado TimeoutError
Я выполняю задание Dask-YARN в кластере YARN по расписанию. Задание создает список задач отложенного набора и отправляет его в кластер, используя следующий код: from dask_yarn import YarnCluster cluster = YarnCluster() cluster.scale(8) app_id =...
205 просмотров
schedule 15.04.2022

Принудительная или явная перебалансировка данных с помощью dask.distributed
У меня есть кластер Dask-MPI с 4 рабочими, набор данных 3D-сетки, загруженный в массив Dask и разбитый на 4 блока. Мое приложение требует, чтобы я выполнял ровно одну задачу для каждого рабочего, и желательно с одним блоком на задачу. Проблема, с...
223 просмотров
schedule 25.04.2022