Искра HiveContext против HbaseContext?

У меня есть набор данных размером 10 петабайт. Мои текущие данные находятся в HBase, где я использую Spark HbaseContext, но он работает плохо.

Будет ли полезно переместить данные из HbaseContext в HiveContext в Spark?

apache-spark hivecontext

Amit khandelwal 05.03.2018 источник

comment

Откуда вы взяли HbaseContext? Это часть разъема HBase, не так ли? В этом случае вы не сможете просто переключаться между контекстами, поскольку они несовместимы. - Jacek Laskowski 05.03.2018

Ответы (2)

arrow_upward
0
arrow_downward

HiveContext используется для чтения данных из Hive. поэтому, если вы переключитесь на HiveContext, данные должны быть в Hive. Я не думаю, что то, что вы пытаетесь, сработает.

Prashant 22.10.2018

arrow_upward
0
arrow_downward

В моем случае я использую mapPartition с подключением HBase внутри. Главное — уметь разделять.

Для сканирования можно создать свой собственный сканер, с префиксом и т.д. Для получения еще проще. Для путов вы можете создать список путов, а затем пакетную вставку.

Я не использую HBaseContext, и у меня неплохие результаты в базе данных из 1,2 миллиарда строк.

kulssaka 22.10.2018

Искра HiveContext против HbaseContext?

Ответы (2)

Вопросы по теме