Резервное копирование из внешнего источника данных в AWS S3 (с использованием конвейерной обработки данных)?

Я пытаюсь переместить некоторые файлы журналов, расположенные на внешнем веб-сервере, в корзину Amazon S3. Это должно происходить каждые 7 дней без ручной активации. Кроме того, я бы хотел, чтобы он был «отказоустойчивым», поэтому, вероятно, было бы лучше, если бы операция копирования выполнялась в облаке Amazon. Я уже читал что-то о решении AWS Data Pipelining, но не смог найти ничего о том, как заставить его работать с внешним (то есть не размещенным на Amazon) источником данных, не говоря уже о загрузке файла с веб-сервера и последующей обработке. Это. Есть ли у кого-нибудь опыт с подобной проблемой и какие-либо советы для меня, с чего начать?

Благодарю вас!


person Biffy    schedule 06.11.2013    source источник
comment
О каком количестве серверов вы говорите? Если это только один, вы сможете загрузить его с помощью запланированной задачи или cron.   -  person datasage    schedule 07.11.2013
comment
Это всего лишь один Сервер. Веб-сервер — это внешний источник данных, к которому у меня есть только ограниченный доступ (я могу только копировать файлы, обычно это делается вручную с помощью браузера). Есть ли возможность запланировать эту задачу, чтобы Amazon справился с ней?   -  person Biffy    schedule 07.11.2013


Ответы (1)


Я не верю, что какой-либо из существующих компонентов будет делать то, что вы хотите, из коробки, но вы всегда можете запустить сценарий как часть конвейера данных. Я использовал его таким образом, чтобы запустить скрипт, который захватывает файлы с внешнего FTP, а затем каждый час загружает их в корзину S3.

person G Gordon Worley III    schedule 07.11.2013
comment
Не могли бы вы подробнее рассказать об этом решении? В настоящее время я пишу сценарий, который использует постановку и копирует файлы в корзину вывода, используя переменную среды ${OUTPUT1_STAGING_DIR} в сценарии bash. К сожалению, это не работает, так как я получаю это сообщение об ошибке: не удалось пометить локальные файлы на S3. Рассчитанная нами подпись запроса не соответствует предоставленной вами подписи. Проверьте свой ключ и метод подписи. Большое спасибо! - person Biffy; 20.11.2013
comment
@Biffy, я не уверен, в чем проблема, но я бы разместил это как отдельный вопрос здесь, на SO, чтобы у вас было больше шансов, что люди увидят его и ответят на него. - person G Gordon Worley III; 20.11.2013
comment
в чем вы писали сценарий? Вы просто добавили его как сценарий ShellCommandActivity, который вытащил с ftp и скопировал на s3? Есть примеры? - person MonkeyBonkey; 13.08.2014
comment
Я не знаю, есть ли какой-либо существующий компонент в конвейере данных, позволяющий запускать скрипт на внешнем сервере. Вы можете использовать ShellCommandActivity на одном экземпляре EC2, который вы создали внутри конвейера, а затем вы должны разработать способ доступа к внешнему серверу из этого сценария (например, через FTP). Для резервного копирования на S3 вы можете установить инструмент s3cmd в экземпляре EC2. - person piggybox; 30.10.2014