Я новичок в Hive Querying, я ищу передовые методы получения данных из таблицы Hive. мы включили TeZ с механизмом выполнения и включили векторизацию.
Мы хотим делать отчеты из таблицы Hive, я прочитал из документа TEZ, что ее можно использовать для отчетов в реальном времени. Сценарий взят из моего веб-приложения, я хотел бы показать результат Hive Query Select * из таблицы Hive в пользовательском интерфейсе, но для любого запроса в командной строке улья требуется минимум 20-60 секунд, даже если таблица улья имеет данные 60 ГБ,.
1) Может ли кто-нибудь сказать мне, как отображать отчеты в реальном времени, запрашивая таблицу Hive и сразу отображать результаты в пользовательском интерфейсе в течение 10-30 секунд
2) Еще одна проблема, которую мы выявили, заключается в том, что изначально у нас есть несекционированная таблица, указывающая на большой двоичный объект / файл в HDFS, она имеет размер 60 ГБ с 200 столбцами, когда мы выгружаем данные из несекционированной таблицы в таблицу ORC (ORC таблица разбита на разделы), это занимает 3+ часа. Есть ли способ улучшить производительность при сбросе данных в таблицу ORC.
3) Когда мы выполняем запросы к таблице Non Partition с ведением, вставкой в таблицу куста и запросами, занимающими меньше времени, чем запрос выбора в таблице ORC, но при увеличении количества записей в таблице куста, запрос SELECT таблицы ORC лучше, чем таблица с корзинами. Есть ли способ повысить производительность и для небольших наборов данных. Поскольку это начальный этап, каждый месяц мы загружаем 50 ГБ данных в таблицу Hive. но он может увеличиваться, мы стремимся улучшить производительность загрузки данных в секционированную таблицу Orc.
4) TEZ поддерживает интерактивность, меньшую задержку и поддержку детализации для отчетов. Как включить в моих детализированных отчетах данные из Hive (которые должны быть интерактивными) в пределах времени ответа человека, то есть 5-40 секунд.
мы тестируем 4 узла, каждый узел имеет 4 ядра процессора, 7 ГБ ОЗУ и 3 диска, подключенных к каждой виртуальной машине.
Спасибо, Махендер