Невозможно импортировать CSV-файл в H2O из DBFS кластера Databricks

Я успешно установил оба H2O в своем кластере AWS Databricks, а затем успешно запустил сервер H2O с помощью:

h2o.init()

Когда я пытаюсь импортировать CSV-файл радужной оболочки, который хранится в моей DBFS Databricks:

train, valid = h2o.import_file(path="/FileStore/tables/iris.csv").split_frame(ratios=[0.7])

Я получаю H2OResponseError: ошибка сервера water.exceptions.H2ONotFoundArgumentException

Файл CSV абсолютно здесь; в той же записной книжке Databricks я могу читать его прямо в DataFrame и просматривать содержимое, используя тот же самый полный путь:

df_iris = ks.read_csv("/FileStore/tables/iris.csv")
df_iris.head()

Я также пробовал звонить:

h2o.upload_file("/FileStore/tables/iris.csv")

но безрезультатно; Я получаю H2OValueError: файла /FileStore/tables/iris.csv не существует. Я также пробовал загрузить файл прямо со своего локального компьютера (диск C), но это тоже не увенчалось успехом.

Я пробовал не использовать полный путь, а просто указывать имя файла, но получаю те же ошибки. Я прочитал документацию H2O и поискал в Интернете, но не могу найти никого, кто когда-либо сталкивался с этой проблемой раньше.

Кто-нибудь может мне помочь?

Спасибо.


person marv722    schedule 20.12.2020    source источник


Ответы (1)


H2O может не понимать, что этот путь находится в DBFS. Вы можете попробовать указать путь /dbfs/FileStore/tables/iris.csv - в этом случае он будет читаться как локальный файл, или попытаться указать полный путь со схемой, например dbfs:/FileStore/tables/iris.csv - но для этого могут потребоваться специфичные для DBFS jar-файлы для H2O.

person Alex Ott    schedule 21.12.2020
comment
Алекс, спасибо за ответ. Итак, изменение пути к /dbfs/FileStore/tables/iris.csv решило мою первоначальную проблему, и я смог успешно прочитать файл csv. Однако, прочитав файл, я позвонил: - person marv722; 22.12.2020
comment
лучше задать это как отдельный вопрос, потому что основная тема вашего вопроса была о пути к файлу - person Alex Ott; 22.12.2020
comment
Хорошо. Спасибо. - person marv722; 23.12.2020