Я следил за этим вопросом Stack Over Flow, где показано, как считать строки в файле pig.
Проблема, которую я обнаружил, заключается в том, что это занимает невероятно много времени, если я выполняю сопоставление фильтра регулярных выражений и другую операцию, прежде чем пытаться подсчитать строки отфильтрованной переменной.
Вот мой код
all_data = load '/logs/chat1.log' USING TextLoader() as line:chararray;
match_filter_1 = filter all_data by ( line matches 'some regex');
inputGroup = GROUP match_filter_1 ALL;
totalLine = foreach inputGroup generate COUNT (match_filter_1);
dump totalLine;
Итак, есть ли способ получить результат быстрее?