Я использую частное облако Eucalyptus, в котором я установил CDH5 HDFS. Я хотел бы сделать резервную копию моей HDFS на Eucalyptus S3. Классический способ использования distcp, предложенный здесь: http://wiki.apache.org/hadoop/AmazonS3, т.е. hadoop distp hdfs://namenode:9000/user/foo/data/fil1 s3://$AWS_ACCESS_KEY:$AWS_SECRET_KEY@bucket/key
не работает.
Кажется, что в hadoop предварительно настроено местоположение S3 на Amazon, и я не могу найти, где находится эта конфигурация, чтобы изменить ее на IP-адрес моей службы S3, работающей на Eucalyptus. Я ожидал, что смогу просто изменить uri S3 так же, как вы можете изменить свой uri NameNode при использовании префикса hdfs: //. Но кажется, что это невозможно ... Есть идеи?
Я уже нашел обходные пути для передачи моих данных. В частности, инструменты s3cmd здесь: https://github.com/eucalyptus/eucalyptus/wiki/HowTo-use-s3cmd-with-Eucalyptus и скрипты s3curl здесь: aws.amazon.com/developertools/Amazon-S3/2880343845151917 работают нормально, но я бы предпочел, если бы я мог передать свои данные с помощью map-reduce с помощью команды distcp.