Искра HiveContext против HbaseContext?

У меня есть набор данных размером 10 петабайт. Мои текущие данные находятся в HBase, где я использую Spark HbaseContext, но он работает плохо.

Будет ли полезно переместить данные из HbaseContext в HiveContext в Spark?


person Amit khandelwal    schedule 05.03.2018    source источник
comment
Откуда вы взяли HbaseContext? Это часть разъема HBase, не так ли? В этом случае вы не сможете просто переключаться между контекстами, поскольку они несовместимы.   -  person Jacek Laskowski    schedule 05.03.2018


Ответы (2)


HiveContext используется для чтения данных из Hive. поэтому, если вы переключитесь на HiveContext, данные должны быть в Hive. Я не думаю, что то, что вы пытаетесь, сработает.

person Prashant    schedule 22.10.2018

В моем случае я использую mapPartition с подключением HBase внутри. Главное — уметь разделять.

Для сканирования можно создать свой собственный сканер, с префиксом и т.д. Для получения еще проще. Для путов вы можете создать список путов, а затем пакетную вставку.

Я не использую HBaseContext, и у меня неплохие результаты в базе данных из 1,2 миллиарда строк.

person kulssaka    schedule 22.10.2018