какое ведомое устройство мы должны загрузить данные в кластер hadoop

мы настроили кластер hadoop с 2 машинами, мы пытаемся реализовать кластер в наших проектах в реальном времени, нам нужна информация в кластере с несколькими узлами о загрузке данных, предположим, если у меня есть 9 узлов данных, какой подчиненный узел нам нужен загрузить данные. могу ли я предоставить выбор для загрузки данных в 2 подчиненных узла, если я загружаю данные в hdfs, реплицируются ли они на другие подчиненные узлы ?. Как мы наблюдали в настоящее время, hdfs использует местоположение / tmp в том случае, если / tmp заполнен, какое местоположение будет использовать HDFS.


person srikanth    schedule 03.07.2015    source источник


Ответы (1)


Целью добавления большего количества кластеров является увеличение хранилища данных. Вы ищете безопасный кластер, предоставляете привилегии некоторым пользователям, которые должны загружать данные в HDFS ?? right Если означает, что вы можете реализовать принцип KERBEROS или разрешить пользователю загружать данные!

Репликация данных: Да, как только данные будут загружены в HDFS, они будут реплицировать данные на узлы. Как только произойдет вывод узла данных из эксплуатации, он не позаботится о данных, которые он переместил из списанного узла в другой узел.

person karthik    schedule 03.07.2015
comment
Привет, Картик, спасибо за ответ, нужно небольшое пояснение по нижеприведенным пунктам. если вы загружаете 2 разных клиента из одной группы (компании), пытаясь загрузить данные в разные узлы данных, будет ли они автоматически реплицированы во всех узлах данных?, Но согласно теоретическим знаниям, клиент должен подойти к узлу имени, он предложит пойти и загрузить в конкретный клиент, как я могу достичь, на данный момент я загружаю вручную на одну машину - person srikanth; 03.07.2015