После просмотра головокружительного вебинара на конференции Rstudio здесь меня накачали достаточно, чтобы выгрузить всю таблицу SQL-сервера в паркетные файлы. В результате получилось 2886 файлов (78 объектов за 37 месяцев), в общей сложности около 700 миллионов строк.
Выполнение базового выбора вернуло все строки менее чем за 15 секунд! (Просто необычный результат !!) На вебинаре Нил Ричардсон из Ursa Labs продемонстрировал набор данных Ny-Taxi с 2 миллиардами строк менее 4 секунд.
Я почувствовал, что пришло время сделать что-то более смелое, например, базовое среднее значение, стандартное отклонение, режим с данными за год, но это заняло минуту в месяц, поэтому я сидел 12,4 минуты в ожидании ответа от R.
В чем проблема? Мой плохо написанный R-запрос? или просто слишком много файлов или степень детализации (десятичные значения в Контобелопе) ??
Любые идеи??
PS: Я не хотел помещать Jira-case на доску apache-arrow, поскольку я вижу, что поиск Google не получает оттуда ответы.