Мне приходится обрабатывать данные в очень больших текстовых файлах (размером около 5 ТБ). Логика обработки использует supercsv для анализа данных и выполнения некоторых проверок. Очевидно, поскольку размер довольно велик, мы планировали использовать хауп, чтобы воспользоваться преимуществами параллельных вычислений. Я устанавливаю hadoop на свою машину и начинаю писать классы картографа и редуктора, и я застрял. Поскольку для карты требуется пара ключ-значение, поэтому, чтобы прочитать этот текстовый файл, я не уверен, что должно быть ключом и значением в этом конкретном сценарии. Может ли кто-нибудь помочь мне с этим.
Мой мыслительный процесс выглядит примерно так (дайте мне знать, если я прав) 1) Прочитайте файл, используя superCSV, и hadoop сгенерирует bean-компоненты supercsv для каждого фрагмента файла в hdfs. (Я предполагаю, что Hadoop позаботится о разделении файла) 2) Для каждого из этих supercsvbeans запустите мою логику проверки.