Apache Spark + RAPIDS: будущее науки о данных предприятия с ускорением на собственном графическом процессоре.

Авторы: Клемент Фарабет и Матей Захария

Специалисты по обработке данных тратят значительное количество времени на изучение данных, повторяя эксперименты с машинным обучением (ML). Каждый час вычислений, необходимых для сортировки наборов данных, извлечения функций и соответствия алгоритмам машинного обучения, мешает специалистам по данным добиваться результатов.

Apache Spark ™ - самый популярный механизм обработки данных в центрах обработки данных для науки о данных. Он используется для интерактивной науки о данных, от подготовки данных до проведения экспериментов машинного обучения и вплоть до развертывания приложений машинного обучения. Apache Spark ™ имеет динамичное сообщество с тысячами участников по всему миру. Несколько месяцев назад было объявлено о новом проекте Apache Spark ™ под названием Project Hydrogen. Project Hydrogen позволяет Apache Spark планировать и запускать задания с несколькими распределенными средами машинного обучения, а также выполнять эти задания на графических процессорах.

RAPIDS - это открытая ускоренная платформа NVIDIA для науки о данных, построенная на CUDA, запущенная сегодня и доступная на www.rapids.ai. Мы считаем, что рабочие процессы в области науки о данных могут значительно выиграть от ускорения, что позволит ученым исследовать гораздо больше и больше наборов данных, чтобы быстрее и надежнее достичь своих бизнес-целей.

Databricks, основанная первоначальными создателями Apache Spark, продолжает вносить свой вклад в проект Apache Spark ™ в качестве основы для Databricks Unified Analytics Platform, которая обеспечивает единую платформу для данных и ИИ. Матей Захария, главный технолог Databricks, прокомментировал платформу RAPIDS: Databricks воодушевлен потенциалом RAPIDS для ускорения рабочих нагрузок Apache Spark. У Databricks есть несколько текущих проектов по лучшей интеграции Spark с собственными ускорителями, включая поддержку Apache Arrow и планирование работы графического процессора с Project Hydrogen, и мы считаем, что RAPIDS - это новая захватывающая возможность для масштабирования рабочих нагрузок наших клиентов в области науки о данных и ИИ .

NVIDIA работает над интеграцией RAPIDS в Apache Spark ™ в несколько этапов. До сих пор и до сегодняшнего дня мы уделяли основное внимание интеграции Python. Мы рады немедленно начать совместную работу со Spark над следующими новыми интеграциями:

Потоковая передача Spark на один графический процессор cuDF
Интеграция cuML и cuGraph
многопроцессорный cuDF UDF
Долгосрочная встроенная интеграция

Apache Spark + RAPIDS: будущее науки о данных предприятия с ускорением на собственном графическом процессоре.

Вопросы по теме