Как обрабатывать изображения в Hadoop с помощью python?

Моя цель - применить структуру map-reduce к кластерным изображениям с использованием инфраструктуры Hadoop. Для уменьшения карты я использую программирование и язык python и пакет MRJOB. Но я не могу создать логику обработки изображений. Например, у меня есть изображения в формате .tif. У меня есть вопросы:

  1. Как сохранить (формат хранения) изображения в hdfs, чтобы получить их для уменьшения карты в python.
  2. я не получаю конвейер ввода-вывода для использования python и hadoop

person Alay Majmudar    schedule 10.09.2018    source источник
comment
Почему бы не использовать PySpark? Затем можно использовать Tensorflow.   -  person OneCricketeer    schedule 10.09.2018
comment
Но даже для pyspark мне пришлось бы хранить и извлекать данные из hdfs. Вопрос в том, как именно будет храниться изображение. Например, в каком формате?   -  person Alay Majmudar    schedule 10.09.2018
comment
Hadoop — это не база данных. Вы можете хранить необработанные JPG, TIF, PNG, что угодно... если вы архивируете много изображений, SequenceFile или Bzip2 могут быть лучше, но только для сжатия   -  person OneCricketeer    schedule 10.09.2018
comment
как я могу добиться этого с помощью python? Например, как я могу получить доступ к hdfs fillllles непосредственно в python?   -  person Alay Majmudar    schedule 10.09.2018
comment
У Spark есть API для этого. spark.apache.org/docs/latest/ api/python/ В противном случае wesmckinney.com/blog/python-hdfs-interfaces   -  person OneCricketeer    schedule 11.09.2018
comment
Тем не менее, большинство людей предпочли бы Scala или Java для быстрых заданий Hadoop/Spark. stackoverflow.com/questions/44890381/   -  person OneCricketeer    schedule 11.09.2018
comment
Я не уверен, почему вы по существу публикуете один и тот же вопрос несколько раз. Как я уже говорил, Spark может читать файлы как необработанные двоичные файлы. Вы не загружаете двоичный файл в Hadoop (в любом случае все файлы уже являются просто двоичными данными, некоторые просто имеют дополнительные метаданные). Вы можете прочитать об этом для идей stackoverflow.com/questions/tagged/   -  person OneCricketeer    schedule 11.09.2018
comment
Большое спасибо за все ваши советы и предложения. В другом вопросе я просто уточнил немного больше о том, что я исследовал и сделал. В этой теме я просил общее исследование по теме   -  person Alay Majmudar    schedule 11.09.2018