Вопросы по теме 'apache-pig'
Hadoop pig latin не может передавать поток через скрипт Python
У меня есть простой скрипт python (moo.py), который я пытаюсь транслировать, хотя
import sys, os
for line in sys.stdin:
print 1;
и я пытаюсь запустить этот скрипт свиньи
DEFINE CMD `python moo.py` ship('moo.py');
data = LOAD...
1089 просмотров
schedule
08.09.2021
Использование распределенного кеша с Pig на эластичной карте Reduce
Я пытаюсь запустить свой скрипт Pig (который использует UDF) на Amazon Elastic Map Reduce. Мне нужно использовать некоторые статические файлы из моих UDF.
Я делаю что-то вроде этого в своем UDF:
public class MyUDF extends...
1082 просмотров
schedule
05.10.2021
Ошибка компиляции UDF Pig Bank
Файл сборки: C: \ my \ work \ PigBank \ contrib \ piggybank \ java \ build.xml
init:
compile:
[echo] *** Compiling Pig UDFs ***
[javac] Compiling 159 source files to C:\my\work\PigBank\contrib\piggybank\java\build\classes
[javac]...
342 просмотров
schedule
25.09.2021
Где посмотреть код mapreduce, сгенерированный из операторов hadoop pig
Все мы знаем, что операторы hadoop pig преобразуются в код java mapreduce. Я хочу знать, есть ли способ увидеть код mapreduce, сгенерированный из операторов pig?
1943 просмотров
schedule
06.09.2021
Выполните подсчет различных значений сумки в Pig
У меня есть вопрос о Pig при выполнении того, что кажется двухуровневым группированием. В качестве примера предположим, что у меня есть несколько примеров входных данных, таких как:
email_id:chararray from:chararray...
3899 просмотров
schedule
05.09.2021
Удаление дубликатов с помощью PigLatin
Я использую PigLatin для фильтрации некоторых записей.
User1 8 NYC
User1 9 NYC
User1 7 LA
User2 4 NYC
User2 3 DC
Сценарий должен удалить дубликат для пользователей и сохранить одну из этих записей. Что-то вроде уникальной команды в...
15794 просмотров
schedule
18.10.2021
PIG Загрузка CSV - Ошибка типа карты
Мы стремимся использовать PIG для крупномасштабного анализа журналов журналов наших серверов. Мне нужно загрузить тип данных карты PIG из файла.
Я попытался запустить образец сценария PIG со следующими данными.
Строка в моем CSV-файле с именем...
4906 просмотров
schedule
10.11.2021
Как повысить производительность работы со свиньей, при которой данные сильно искажены?
Я запускаю сценарий свиньи, который выполняет GROUP BY и вложенный FOREACH, выполнение которого занимает несколько часов из-за одной или двух задач сокращения. Например:
B = GROUP A BY (fld1, fld2) parallel 50;
C = FOREACH B {
U = A.fld1;...
1261 просмотров
schedule
19.11.2021
Карта Кассандры уменьшает поддержку
Недавно я столкнулся со случаем, когда Кассандра идеально подходит для хранения событий, основанных на времени, с настраиваемыми ttls для каждого типа события (другим решением было бы сохранить его в hadoop и вести учет вручную (ttls и прочее, IMHO...
361 просмотров
schedule
13.09.2021
Запуск Pig с JAR в качестве UDF возвращает ERROR 101
Я новичок в Pig и Oozie, так что это может быть вопрос для начинающих, но я искал везде ответ, безуспешно ... Я пытаюсь запустить UDF на Pig, UDF - это JAR с eval метод перегружен (взято из http://wiki.apache.org/pig/UDFManual ):
package...
1605 просмотров
schedule
15.11.2021
Свинья с округлением десятичной дроби до двух знаков
Любые идеи о том, как я могу округлить тип данных с плавающей запятой до 2 десятичных знаков в Apache Pig?
Например:
test = FOREACH (JOIN Load by (Op1, Op2), Load2 by (Op3,Op4)) GENERATE
Load2::Number2 *Load::Number1 as Output
Поля...
3989 просмотров
schedule
08.09.2021
Вычтите значение одной строки из другой строки в Pig
Я пытаюсь разработать образец программы с использованием Pig для анализа некоторых файлов журналов. Я хочу проанализировать время выполнения разных работ. Когда я читаю файл журнала задания, я получаю время начала и время окончания задания,...
2224 просмотров
schedule
12.09.2021
Зацикливание на результатах группы свиней.
Допустим, у меня есть игра с идентификаторами игроков. Каждый идентификатор может иметь несколько имен персонажей (playerNames), и у нас есть счет для каждого из этих имен. Я хотел бы просуммировать все очки на имя игрока и рассчитать процентный...
1238 просмотров
schedule
16.10.2021
Источник тегов свиньи не работает с несколькими файлами
У меня есть сценарий Pig, который загружает несколько входных файлов. Когда я хочу получить имя входного файла с каждой входной записью из файла tagsource или tagfile , он выбирает только первое имя файла, но включает данные из обоих файлов....
344 просмотров
schedule
16.09.2021
разница между ResourceSchema и Schema в свинье
В чем разница между ResourceSchema и Schema в свинье? Уже существует класс Schema, почему свинья пытается добавить еще один класс Schema-akin под названием ResourceSchema (он почти похож на Schema API, ему нужно установить имя и тип...
169 просмотров
schedule
27.10.2021
Свинья: Медленная группировка по оператору
После тестирования Hive и Pig я обнаружил, что оператор Group By в Pig значительно медленнее, чем Hive. Мне было интересно, испытал ли кто-нибудь то же самое? И есть ли у людей какие-нибудь советы по повышению эффективности этой операции?...
340 просмотров
schedule
29.10.2021
Свинья ОШИБКА 2998: необработанная внутренняя ошибка. Статический (неправильное название: com / company / Static)
У меня есть сценарий Pig, который возвращает постоянное строковое значение. Когда я пытаюсь запустить сценарий с помощью следующей команды, я получаю ОШИБКУ Pig 2998:
pig -Dpig.additional.jars=Static.jar -f script.pig -l /dev/null -x local...
1346 просмотров
schedule
01.10.2021
как создать набор значений после групповой функции в Pig (Hadoop)
Допустим, у меня есть набор значений в file.txt a, b, c a, b, d k, l, m k, l, n k, l, o И мой код: file = LOAD 'file.txt' using PigStorage (','); events = foreach file generate session_id, user_id, code, type; gr = группировать события по...
2018 просмотров
schedule
27.10.2021
Присоединение свиньи Hadoop с временным диапазоном
У меня есть два набора данных
Master.txt
ID,StartTime
1,2013-04-01 00:01:37
2,2013-04-01 00:01:37
Transaction.txt
ID,SurveyDate,Attr1
1,2013-04-01 00:03:40,Success
2,2013-05-01 00:01:30,Success
Я хочу объединить эти два набора данных с ID...
690 просмотров
schedule
01.10.2021
как использовать свинью, чтобы разделить строку и извлечь числовую часть строки
У меня есть строка wtr, которая, как показано ниже
wtr 10 Хорошо
9
11.v.Хорошо
Я пытаюсь извлечь числовую часть из этой строки с помощью свиньи. Вот что я пробовал
xx = FOREACH xyz_process {...
702 просмотров
schedule
05.11.2021