Низкая производительность Arrow Parquet нескольких файлов

После просмотра головокружительного вебинара на конференции Rstudio здесь меня накачали достаточно, чтобы выгрузить всю таблицу SQL-сервера в паркетные файлы. В результате получилось 2886 файлов (78 объектов за 37 месяцев), в общей сложности около 700 миллионов строк.

Выполнение базового выбора вернуло все строки менее чем за 15 секунд! (Просто необычный результат !!) На вебинаре Нил Ричардсон из Ursa Labs продемонстрировал набор данных Ny-Taxi с 2 миллиардами строк менее 4 секунд.

Я почувствовал, что пришло время сделать что-то более смелое, например, базовое среднее значение, стандартное отклонение, режим с данными за год, но это заняло минуту в месяц, поэтому я сидел 12,4 минуты в ожидании ответа от R.

В чем проблема? Мой плохо написанный R-запрос? или просто слишком много файлов или степень детализации (десятичные значения в Контобелопе) ??

Любые идеи??

PS: Я не хотел помещать Jira-case на доску apache-arrow, поскольку я вижу, что поиск Google не получает оттуда ответы.

r parquet apache-arrow

Patricio Lobos 08.02.2021 источник

Ответы (1)

arrow_upward
1
arrow_downward

Я предполагаю (без фактического просмотра данных или профилирования запроса) две вещи:

Вы правы, десятичный тип потребует некоторой работы по преобразованию в тип R, потому что R не имеет десятичного типа, поэтому это будет медленнее, чем просто чтение в типе int32 или float64.
Вы все еще читаете около 350 миллионов строк данных в свой сеанс R, и это займет некоторое время. В примере запроса на виньетке пакета со стрелкой отфильтровывается больше данных (и фильтрация выполняется очень быстро).

Neal Richardson 08.02.2021

Низкая производительность Arrow Parquet нескольких файлов

Ответы (1)

Вопросы по теме