Я пытаюсь обработать журналы MapReduce и хочу отфильтровать все журналы в корзине по имени файла перед их обработкой в EMR. Кроме того, некоторые файлы являются каталогами tar, и я бы хотел, чтобы mrjob распаковал их, а затем отфильтровал файлы в нем, чтобы анализировать только соответствующий файл.
Есть идеи, как отфильтровать корзину s3 по имени файла из MrJob? Я нашел mapper_pre_filter! метод, но он только фильтрует ввод построчно.
s3distcp
для фильтрации и перемещения необходимых файлов в определенную корзину. - person mr0re1   schedule 16.06.2014