У меня есть большой data.frame из 20 миллионов строк. Этот фрейм данных не только числовой, но и символьный. Используя концепцию «разделяй и властвуй», я хочу разделить этот фрейм данных для параллельного выполнения с помощью пакета snow (в частности, функции parLapply). Проблема в том, что узлам не хватает памяти, потому что части фрейма данных обрабатываются в ОЗУ. Я искал пакет, который поможет мне решить эту проблему, и нашел только один (учитывая многотипный data.frame): пакет ff. Другая проблема связана с использованием этого пакета. Результат разделения ffdf не равен результату разделения commom data.frame. Таким образом, невозможно запустить функцию parLapply.
Знаете ли вы другие пакеты для этой цели? Bigmemory поддерживает только матрицу.