SparkR - список файлов для подключенной корзины AWS

Я только начал работать со Spark R. В Databricks смонтировано ведро aws.s3.

Я хотел бы использовать list.files () или dir () для перечисления файлов, которые содержат определенный шаблон в своих именах. Однако я не могу определить путь для этого. Я могу прочитать один файл с помощью sparkr :: read.df, но я не знаю, как найти все файлы из нескольких тысяч, которые меня интересуют в ведре?

Большое спасибо, если вы можете помочь!


person Kate Smith    schedule 13.09.2017    source источник


Ответы (1)


Есть несколько способов сделать это. В этом вам поможет пакет R под названием aws.s3: https://github.com/cloudyr/aws.s3

ИЛИ, если у вас установлен инструмент командной строки aws, вы можете вызвать его через system из R. Вы можете включить grep в вызов и сделать что-то вроде

listOfBucketsWithABCpattern<- system("aws s3 ls | grep abc", intern=TRUE)

Чтобы уточнить, это не столько SparkR вопрос, сколько это R вопрос и AWS Command Line Interface вопрос.

Надеюсь, это поможет. Ваше здоровье!

person nate    schedule 01.06.2018