Мы пытаемся прочитать данные из таблицы ORC в HIVE (1.2.1) и поместить эти данные в таблицу с TextInputFormat. Некоторые записи в исходных данных слишком велики, и во время работы возникает следующая ошибка:
org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.tez.runtime.library.common.sort.impl.ExternalSorter $ MapBufferTooSmallException: запись слишком велика для буфера в памяти. Превышен предел переполнения буфера, bufferOverflowRecursion = 2, bufferList.size = 1, blockSize = 1610612736
Есть идеи, как решить проблему?
Мы используем TEZ-движок для выполнения запросов, и с простым MR-движком ошибок нет.
Запрос на выполнение:
insert overwrite table visits_text_test_1m select * from visits where dt='2016-01-19' limit 1000000;
Upd: Та же ошибка при копировании из ORC в хранилище ORC.
Upd 2: Простой выбор из ORC неплохо работает с любым движком.