HDFS в док-контейнерах — возможно ли это?

мы используем кластер Hadoop на основе версии HDP — 2.6.5 с платформой ambari

мы хотим знать, можем ли мы использовать следующие компоненты HDFS в док-контейнерах как:

1. journal nodes 
2. ZK fail controller
3. NameNode ( HA with active namenode and standby namenode )

после некоторых поисков мы не нашли так много документации о HDFS в контейнерах докеров.

поэтому я предполагаю, что HDFS в контейнерах докеров не является хорошей реализацией

Я буду рад получить больше идей по этому поводу?


person jessica    schedule 09.02.2020    source источник


Ответы (1)


Насколько мне известно, у Cloudera нет такой документации. Возможно, они работают над будущим продуктом Kubernetes, но это только то, что я слышал.

Да, можно использовать Docker, но он не будет поддерживаться ни одним крупным поставщиком Hadoop, и, вероятно, будет очень сложно справиться с требованиями к сети и хранилищу.

MinIO, возможно, будет лучшей альтернативой HDFS при использовании Docker

person OneCricketeer    schedule 12.02.2020
comment
Большое спасибо, крикет (+1), поэтому я предполагаю, что в промышленном мире и для производственного кластера никто не реализовал hdfs на докере, я прав? - person jessica; 13.02.2020
comment
Можете ли вы поделиться какой-либо документацией об отказе от использования hdfs в контейнерах в производственных системах? - person jessica; 13.02.2020
comment
Как я уже сказал, в таких средах чаще используются Minio, Ceph или GlusterFS. Документов у меня, конечно, нет. Вам просто нужно обратиться в любую компанию, использующую HDFS в разумных масштабах. - person OneCricketeer; 13.02.2020
comment
Или полностью переключите всю свою среду с HDP datanami.com/2018/11/20/ - person OneCricketeer; 13.02.2020
comment
на данный момент это нереально, мы хотим продолжить работу с hadoop, но некоторые команды из нашей компании хотят сделать это на докерах (я имею в виду hdfs на докерах), с моей точки зрения, это ошибка, потому что я не вижу ни одной компании, которая использует производственную HDFS на докер-контейнеры - person jessica; 13.02.2020
comment
второй вопрос касается того, как контейнеры Docker с HDFS будут работать в производственной среде, с очень быстрым чтением/записью на диски и когда диски на каждом узле огромны, более 30T. - person jessica; 13.02.2020
comment
Скорость и размер не имеют значения. Вы бы просто использовали Docker volumes. Контейнеризировать можно все что угодно. Но есть много задокументированных недостатков, связанных с размещением контейнера JVM внутри контейнера Docker. (проведите собственное исследование) - person OneCricketeer; 13.02.2020
comment
Что касается сети, все namenode и datanodes существуют в сети Docker Bridge/Overlay. Клиенты должны работать в одном и том же сетевом пространстве, чтобы использовать Hadoop. - person OneCricketeer; 13.02.2020
comment
Давайте продолжим обсуждение в чате. - person jessica; 13.02.2020