Apache Kudu использует слишком много места на диске для WAL

У меня hive table размером 2,7 МБ (хранится в формате паркета). Когда я использую impala-shell для преобразования этой таблицы куста в kudu, я замечаю, что размер папки /tserver/ увеличивается примерно на 300 МБ. При дальнейшем изучении я вижу, что это папка /tserver/wals/, которая содержит большую часть этого увеличения. Из-за этого я столкнулся с серьезными проблемами. Если файл размером 2,7 МБ генерирует WAL размером 300 МБ, тогда я не могу работать с большими данными. Есть ли этому решение?

Моя kudu версия - 1.1.0, а импала - 2.7.0.


person Zzrot    schedule 21.02.2017    source источник


Ответы (1)


Я никогда не использовал KUDU, но я могу поискать в Google по нескольким ключевым словам и прочитать некоторую документацию.

Из справки по конфигурации Kudu раздел «Неподдерживаемые флаги». ..

--log_preallocate_segments
Должен ли WAL заранее выделять весь сегмент перед записью в него
По умолчанию true

--log_segment_size_mb
Размер сегмента по умолчанию для пролистывания журнала, в МБ
По умолчанию 64

--log_min_segments_to_retain
Минимальное количество прошлых сегментов журнала, которые нужно хранить постоянно, независимо от того, что требуется для обеспечения долговечности. Должно быть не менее 1.
По умолчанию 2

--log_max_segments_to_retain
Максимальное количество прошлых сегментов журнала, которые нужно хранить постоянно для отслеживания других одноранговых узлов.
По умолчанию 10

Похоже, у вас есть минимальные требования к диску (2 + 1) x64 МБ на планшет, только для WAL. И он может вырасти до 10x64 МБ, если некоторые планшеты не работают и не могут наверстать упущенное.

Плюс некоторое временное дисковое пространство для уплотнения и т. Д. И т. Д.


[Изменить] эти значения по умолчанию были изменены в Kudu 1.4 (выпущен в июне 2017 г.); цитируя примечания к выпуску ...

Размер по умолчанию для сегментов журнала упреждающей записи (WAL) был уменьшен с 64 МБ до 8 МБ. Кроме того, в случае, если все реплики планшета полностью обновлены и данные были удалены из памяти, серверы теперь сохранят только один сегмент WAL, а не два.
Ожидается, что эти изменения уменьшат среднее потребление дискового пространства на настроенном диске WAL в 16 раз

person Samson Scharfrichter    schedule 22.02.2017