Java Hadoop-lzo Найден интерфейс, но ожидался класс LzoTextInputFormat

Я пытаюсь использовать пакет Hadoop-LZO (созданный с помощью шагов здесь). Похоже, все сработало успешно, так как я смог преобразовать свои файлы lzo в индексированные файлы с помощью (это возвращает big_file.lzo.index, как и ожидалось):

hadoop jar /path/to/your/hadoop-lzo.jar com.hadoop.compression.lzo.LzoIndexer big_file.lzo

Затем я использую эти файлы в своих заданиях mapreduce (с big_file.lzo.index в качестве входных данных):

import com.hadoop.mapreduce.LzoTextInputFormat;
....
Job jobConverter = new Job(conf, "conversion");
jobConverter.setJar("JsonConverter.jar");
jobConverter.setInputFormatClass(LzoTextInputFormat.class);
....

и я получаю следующую ошибку:

Exception in thread "main" java.lang.IncompatibleClassChangeError: Found interface org.apache.hadoop.mapreduce.JobContext, but class was expected
    at com.hadoop.mapreduce.LzoTextInputFormat.listStatus(LzoTextInputFormat.java:62)
    at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.getSplits(FileInputFormat.java:389)
    at com.hadoop.mapreduce.LzoTextInputFormat.getSplits(LzoTextInputFormat.java:101)
    at org.apache.hadoop.mapreduce.JobSubmitter.writeNewSplits(JobSubmitter.java:304)
    at org.apache.hadoop.mapreduce.JobSubmitter.writeSplits(JobSubmitter.java:321)
    at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:199)
    at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1290)
    at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1287)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:415)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1595)
    at org.apache.hadoop.mapreduce.Job.submit(Job.java:1287)
    at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:1308)
    at org.wwbp.JsonConverter.run(JsonConverter.java:116)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
    at org.wwbp.JsonConverter.main(JsonConverter.java:74)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:606)
    at org.apache.hadoop.util.RunJar.run(RunJar.java:221)
    at org.apache.hadoop.util.RunJar.main(RunJar.java:136)

Я видел другие вопросы, отвечающие на этот вопрос, и они говорят, что нужно перестроиться с помощью Hadoop v2. Поэтому я перезагрузил все с Github и запустил

% hadoop version
Hadoop 2.7.0-mapr-1607
Compiled by root on 2016-07-18T07:56Z
Compiled with protoc 2.5.0
This command was run using /opt/mapr/hadoop/hadoop-2.7.0/share/hadoop/common/hadoop-common-2.7.0-mapr-1607.jar

% ant clean compile-native tar -Dhadoopversion=27
....
tar:
  [tar] Building tar: ../jars/hadoop-lzo/build/hadoop-lzo-0.4.15.tar.gz

BUILD SUCCESSFUL
Total time: 15 seconds

При построении мои пути следующие:

C_INCLUDE_PATH=../jars/lzo-2.09/include
LIBRARY_PATH=../jars/lzo-2.09/lib
JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64

Я действительно не уверен, что я делаю неправильно. Как заставить ant увидеть Hadoop v2?

Редактировать 1: возможно, следует отметить: когда я запускаю задание mapreduce (вызывая LzoTextInputFormat.class) и конвертер lzo (на big_file.lzo), мой путь к классам выглядит следующим образом.

CLASS_PATH=/opt/mapr/hadoop/hadoop-2.7.0/etc/hadoop:/opt/mapr/hadoop/hadoop-2.7.0/share/hadoop/common/lib/*:/opt/mapr/hadoop/hadoop-2.7.0/share/hadoop/common/*:/opt/mapr/hadoop/hadoop-2.7.0/share/hadoop/hdfs:/opt/mapr/hadoop/hadoop-2.7.0/share/hadoop/hdfs/lib/*:/opt/mapr/hadoop/hadoop-2.7.0/share/hadoop/hdfs/*:/opt/mapr/hadoop/hadoop-2.7.0/share/hadoop/yarn/lib/*:/opt/mapr/hadoop/hadoop-2.7.0/share/hadoop/yarn/*:/opt/mapr/hadoop/hadoop-2.7.0/share/hadoop/mapreduce/lib/*:/opt/mapr/hadoop/hadoop-2.7.0/share/hadoop/mapreduce/*:/contrib/capacity-scheduler/*.jar:/opt/mapr/lib/kvstore*.jar:/opt/mapr/lib/libprotodefs*.jar:/opt/mapr/lib/baseutils*.jar:/opt/mapr/lib/maprutil*.jar:/opt/mapr/lib/json-20080701.jar:/opt/mapr/lib/flexjson-2.1.jar:/jars/hadoop-lzo-0.4.15/hadoop-lzo-0.4.15.jar

Изменить 2: если я проиндексирую файл lzo следующим образом (т. е. попытаюсь проиндексировать через задание mapreduce с DistributedLzoIndexer вместо LzoIndexer), я получу аналогичную ошибку:

> hadoop jar /path/to/your/hadoop-lzo.jar com.hadoop.compression.lzo.DistributedLzoIndexer big_file.lzo
16/12/09 13:06:24 INFO mapreduce.Job:  map 0% reduce 0%
16/12/09 13:06:29 INFO mapreduce.Job: Task Id : attempt_1472572940387_0370_m_000000_0, Status : FAILED
Error: Found interface org.apache.hadoop.mapreduce.TaskAttemptContext, but class was expected

person Sal    schedule 09.12.2016    source источник


Ответы (1)


Не знаю, почему вышеперечисленное не работает, поэтому я начал с нуля, используя этот репозиторий:

https://github.com/twitter/hadoop-lzo

вместо того, что указано выше, и использовал maven для сборки вместо ant (используя все те же настройки, что и выше).

person Sal    schedule 09.12.2016