мы настроили кластер hadoop с 2 машинами, мы пытаемся реализовать кластер в наших проектах в реальном времени, нам нужна информация в кластере с несколькими узлами о загрузке данных, предположим, если у меня есть 9 узлов данных, какой подчиненный узел нам нужен загрузить данные. могу ли я предоставить выбор для загрузки данных в 2 подчиненных узла, если я загружаю данные в hdfs, реплицируются ли они на другие подчиненные узлы ?. Как мы наблюдали в настоящее время, hdfs использует местоположение / tmp в том случае, если / tmp заполнен, какое местоположение будет использовать HDFS.
какое ведомое устройство мы должны загрузить данные в кластер hadoop
Ответы (1)
Целью добавления большего количества кластеров является увеличение хранилища данных. Вы ищете безопасный кластер, предоставляете привилегии некоторым пользователям, которые должны загружать данные в HDFS ?? right Если означает, что вы можете реализовать принцип KERBEROS или разрешить пользователю загружать данные!
Репликация данных: Да, как только данные будут загружены в HDFS, они будут реплицировать данные на узлы. Как только произойдет вывод узла данных из эксплуатации, он не позаботится о данных, которые он переместил из списанного узла в другой узел.
person
karthik
schedule
03.07.2015
Привет, Картик, спасибо за ответ, нужно небольшое пояснение по нижеприведенным пунктам. если вы загружаете 2 разных клиента из одной группы (компании), пытаясь загрузить данные в разные узлы данных, будет ли они автоматически реплицированы во всех узлах данных?, Но согласно теоретическим знаниям, клиент должен подойти к узлу имени, он предложит пойти и загрузить в конкретный клиент, как я могу достичь, на данный момент я загружаю вручную на одну машину
- person srikanth; 03.07.2015