У меня есть большой текстовый файл размером около 13 ГБ. Я хочу обработать файл с помощью Hadoop. Я знаю, что Hadoop использует FileInputFormat для создания InputSplits, которые назначаются задачам сопоставления. Я хочу знать, создает ли Hadoop эти InputSplits последовательно или параллельно. Я имею в виду, читает ли он большой текстовый файл последовательно на одном хосте и создает разделенные файлы, которые затем распределяются по узлам данных, или он читает фрагменты, скажем, по 50 МБ параллельно? Реплицирует ли hadoop большой файл на нескольких хостах перед его разделением?
Рекомендуется ли разделить файл на куски по 50 МБ, чтобы ускорить обработку? Есть много вопросов о подходящем размере разделения для картографических задач, но не о самом процессе разделения.
Спасибо