Мы используем методы массовой загрузки HBase, как описано в: http://blog.cloudera.com/blog/2013/09/how-to-use-hbase-bulk-loading-and-why/ (то есть создание H-файлов напрямую с использованием HFileOutputFormat)
Мы должны использовать эту опцию, чтобы предварительно заполнить кластер HBase всеми данными, которые у нас уже есть в устаревшей системе (ах).
Поскольку HBase не поддерживает вторичные таблицы (или индексы), мы поддерживаем вторичные таблицы (или индексы) на уровне приложения.
Теперь вопрос заключается в том, как использовать технику массовой загрузки для создания H-файлов различных таблиц (основная таблица и вторичные таблицы / индексы). Есть ли какой-либо формат с несколькими HFileOutputFormat (например, HFileMultiOutputFormat)?
Я понимаю, что мы могли бы создать несколько заданий MR и выполнять каждое задание отдельно. Цена связана с «чтением» такого большого количества данных (более нескольких ТБ). Я хотел найти способ, позволяющий читать один раз и писать несколько раз. Объединение заданий MR не помогает, так как для всех задач карты требуются одни и те же данные, а цепочка ограничивает задачу 2-й карты, чтобы получить результат 1-й задачи карты.
Похожие вопросы задавались здесь, здесь. Но они остались без ответа, поэтому попробуйте снова.