Вопросы по теме 'apache-pig'

Hadoop pig latin не может передавать поток через скрипт Python
У меня есть простой скрипт python (moo.py), который я пытаюсь транслировать, хотя import sys, os for line in sys.stdin: print 1; и я пытаюсь запустить этот скрипт свиньи DEFINE CMD `python moo.py` ship('moo.py'); data = LOAD...
1089 просмотров
schedule 08.09.2021

Использование распределенного кеша с Pig на эластичной карте Reduce
Я пытаюсь запустить свой скрипт Pig (который использует UDF) на Amazon Elastic Map Reduce. Мне нужно использовать некоторые статические файлы из моих UDF. Я делаю что-то вроде этого в своем UDF: public class MyUDF extends...
1082 просмотров
schedule 05.10.2021

Ошибка компиляции UDF Pig Bank
Файл сборки: C: \ my \ work \ PigBank \ contrib \ piggybank \ java \ build.xml init: compile: [echo] *** Compiling Pig UDFs *** [javac] Compiling 159 source files to C:\my\work\PigBank\contrib\piggybank\java\build\classes [javac]...
342 просмотров
schedule 25.09.2021

Где посмотреть код mapreduce, сгенерированный из операторов hadoop pig
Все мы знаем, что операторы hadoop pig преобразуются в код java mapreduce. Я хочу знать, есть ли способ увидеть код mapreduce, сгенерированный из операторов pig?
1943 просмотров
schedule 06.09.2021

Выполните подсчет различных значений сумки в Pig
У меня есть вопрос о Pig при выполнении того, что кажется двухуровневым группированием. В качестве примера предположим, что у меня есть несколько примеров входных данных, таких как: email_id:chararray from:chararray...
3899 просмотров
schedule 05.09.2021

Удаление дубликатов с помощью PigLatin
Я использую PigLatin для фильтрации некоторых записей. User1 8 NYC User1 9 NYC User1 7 LA User2 4 NYC User2 3 DC Сценарий должен удалить дубликат для пользователей и сохранить одну из этих записей. Что-то вроде уникальной команды в...
15794 просмотров
schedule 18.10.2021

PIG Загрузка CSV - Ошибка типа карты
Мы стремимся использовать PIG для крупномасштабного анализа журналов журналов наших серверов. Мне нужно загрузить тип данных карты PIG из файла. Я попытался запустить образец сценария PIG со следующими данными. Строка в моем CSV-файле с именем...
4906 просмотров
schedule 10.11.2021

Как повысить производительность работы со свиньей, при которой данные сильно искажены?
Я запускаю сценарий свиньи, который выполняет GROUP BY и вложенный FOREACH, выполнение которого занимает несколько часов из-за одной или двух задач сокращения. Например: B = GROUP A BY (fld1, fld2) parallel 50; C = FOREACH B { U = A.fld1;...
1261 просмотров
schedule 19.11.2021

Карта Кассандры уменьшает поддержку
Недавно я столкнулся со случаем, когда Кассандра идеально подходит для хранения событий, основанных на времени, с настраиваемыми ttls для каждого типа события (другим решением было бы сохранить его в hadoop и вести учет вручную (ttls и прочее, IMHO...
361 просмотров
schedule 13.09.2021

Запуск Pig с JAR в качестве UDF возвращает ERROR 101
Я новичок в Pig и Oozie, так что это может быть вопрос для начинающих, но я искал везде ответ, безуспешно ... Я пытаюсь запустить UDF на Pig, UDF - это JAR с eval метод перегружен (взято из http://wiki.apache.org/pig/UDFManual ): package...
1605 просмотров
schedule 15.11.2021

Свинья с округлением десятичной дроби до двух знаков
Любые идеи о том, как я могу округлить тип данных с плавающей запятой до 2 десятичных знаков в Apache Pig? Например: test = FOREACH (JOIN Load by (Op1, Op2), Load2 by (Op3,Op4)) GENERATE Load2::Number2 *Load::Number1 as Output Поля...
3989 просмотров
schedule 08.09.2021

Вычтите значение одной строки из другой строки в Pig
Я пытаюсь разработать образец программы с использованием Pig для анализа некоторых файлов журналов. Я хочу проанализировать время выполнения разных работ. Когда я читаю файл журнала задания, я получаю время начала и время окончания задания,...
2224 просмотров
schedule 12.09.2021

Зацикливание на результатах группы свиней.
Допустим, у меня есть игра с идентификаторами игроков. Каждый идентификатор может иметь несколько имен персонажей (playerNames), и у нас есть счет для каждого из этих имен. Я хотел бы просуммировать все очки на имя игрока и рассчитать процентный...
1238 просмотров
schedule 16.10.2021

Источник тегов свиньи не работает с несколькими файлами
У меня есть сценарий Pig, который загружает несколько входных файлов. Когда я хочу получить имя входного файла с каждой входной записью из файла tagsource или tagfile , он выбирает только первое имя файла, но включает данные из обоих файлов....
344 просмотров
schedule 16.09.2021

разница между ResourceSchema и Schema в свинье
В чем разница между ResourceSchema и Schema в свинье? Уже существует класс Schema, почему свинья пытается добавить еще один класс Schema-akin под названием ResourceSchema (он почти похож на Schema API, ему нужно установить имя и тип...
169 просмотров
schedule 27.10.2021

Свинья: Медленная группировка по оператору
После тестирования Hive и Pig я обнаружил, что оператор Group By в Pig значительно медленнее, чем Hive. Мне было интересно, испытал ли кто-нибудь то же самое? И есть ли у людей какие-нибудь советы по повышению эффективности этой операции?...
340 просмотров
schedule 29.10.2021

Свинья ОШИБКА 2998: необработанная внутренняя ошибка. Статический (неправильное название: com / company / Static)
У меня есть сценарий Pig, который возвращает постоянное строковое значение. Когда я пытаюсь запустить сценарий с помощью следующей команды, я получаю ОШИБКУ Pig 2998: pig -Dpig.additional.jars=Static.jar -f script.pig -l /dev/null -x local...
1346 просмотров
schedule 01.10.2021

как создать набор значений после групповой функции в Pig (Hadoop)
Допустим, у меня есть набор значений в file.txt a, b, c a, b, d k, l, m k, l, n k, l, o И мой код: file = LOAD 'file.txt' using PigStorage (','); events = foreach file generate session_id, user_id, code, type; gr = группировать события по...
2018 просмотров
schedule 27.10.2021

Присоединение свиньи Hadoop с временным диапазоном
У меня есть два набора данных Master.txt ID,StartTime 1,2013-04-01 00:01:37 2,2013-04-01 00:01:37 Transaction.txt ID,SurveyDate,Attr1 1,2013-04-01 00:03:40,Success 2,2013-05-01 00:01:30,Success Я хочу объединить эти два набора данных с ID...
690 просмотров
schedule 01.10.2021

как использовать свинью, чтобы разделить строку и извлечь числовую часть строки
У меня есть строка wtr, которая, как показано ниже wtr 10 Хорошо 9 11.v.Хорошо Я пытаюсь извлечь числовую часть из этой строки с помощью свиньи. Вот что я пробовал xx = FOREACH xyz_process {...
702 просмотров
schedule 05.11.2021