Вопросы по теме 'scalding'

Есть ли источник Scalding, который я могу использовать для lzo-сжатых двоичных данных?
Я записываю сериализованные записи Thrift в файл, используя сжатие LZO Elephant Bird . Для этого я использую их класс ThriftBlockWriter . Затем в моем задании Scalding используется FixedPathLzoThrift для обработки записей. Все работает...
369 просмотров
schedule 28.09.2021

Ошпаривание: необходимо читать файлы в разных форматах в зависимости от аргумента.
Я пытаюсь создать сценарий, который будет создавать канал из файла в формате avro или с разделителями на основе значения, переданного в качестве аргумента в командной строке. Я хочу взять эту трубку и поработать с ней. На данный момент у меня есть...
293 просмотров
schedule 22.10.2021

Scalding чтение нескольких файлов из HDFS
Как я могу прочитать все файлы из каталога на HDFS и обработать их с помощью scalding. Для локальной файловой системы я использую ниже import com.twitter.scalding._ import com.twitter.scalding.JsonLine import java.io._ class ParseJsonJob(args:...
1372 просмотров
schedule 08.05.2022

прочитать формулу, хранящуюся в текстовом файле, в scalding
Проблема в том, что у меня есть 2 файла: 1-й файл с 4 столбцами, как в 1,Санчит,60,80 2-й файл с 2 столбцами, как в 1,(1-(x/y))>1 теперь я хочу применить формулу во втором файле к значениям 60 и 80, которые я буду читать из первого...
114 просмотров
schedule 21.07.2022

Обжигающая оптимизация 'multimap()'
Являются ли следующие два блока кода эквивалентными с точки зрения производительности? val input: TypedPipe[Person] = .... input .map(_.getName) .map(_.split(" ")) а также... val input: TypedPipe[Person] = .... input...
134 просмотров
schedule 02.08.2022

Как группировать результаты в Scalding
Я пытаюсь вывести канал в разные каталоги, чтобы вывод каждого каталога был разделен на основе некоторых идентификаторов. Итак, в простом коде сокращения карты я бы использовал класс MultipleOutputs и сделал бы что-то подобное в редукторе....
278 просмотров
schedule 01.09.2022

Scalding (старые версии) счетчики на основе каскадирования
В более старых версиях scalding в его API еще не было counters . Счетчики Hadoop в Scalding подсказывает, как вернуться к каскадным счетчикам в scalding def addCounter(pipe : Pipe, group : String, counter : String) = { pipe.each(() ->...
194 просмотров
schedule 10.09.2022

Как реализовать соединение ИЛИ в Hadoop (обваривание/каскадирование)
Наборы данных легко объединять по одному ключу, просто отправив поле соединения в качестве ключа редуктора. А вот стыковать записи по нескольким ключам, где хотя бы один должен быть одинаковым, для меня не так просто. Пример У меня есть журналы, и...
1229 просмотров
schedule 12.11.2022

Hadoop-Cascading: частичное касание источника каталога
Мои данные имеют такую ​​структуру: +data |-2014080700_00.txt |-2014080700_01.txt |-2014080701_00.txt |- ... |-2014080723_00.txt |-2014080800_00.txt |- ... |-2014090800_00.txt Я знаю, что могу использовать весь файл внутри каталога данных с...
304 просмотров
schedule 23.03.2023

HBase Get/Scan в задании Scalding
Я использую Scalding с Spyglass для чтения/записи в HBase. Я делаю левое внешнее соединение таблицы1 и таблицы2 и пишу обратно в таблицу1 после преобразования столбца. И table1, и table2 объявлены как Spyglass HBaseSource. Это прекрасно...
141 просмотров
schedule 07.12.2022

Пример HBase to Hive с Scalding
Я пытаюсь прочитать данные из HBase, обработать их и затем записать в Hive. Я новичок в Scalding и Scala. Я заглянул в SpyGlass для чтения из HBase. Он работает хорошо, и я могу прочитать данные, а затем записать их в файл. val data = new...
544 просмотров
schedule 06.07.2023

Сгенерировать разницу List[String] в Scalding
У меня есть records:TypedType[(String, util.List[String])] в моей работе Scalding, где первое значение — это идентификатор, а второе — список вещей. Представьте себе следующее: ("1", ["a","b","c"]) ("1", ["a","b","c"]) ("1", ["a","b","c"])...
67 просмотров
schedule 04.07.2023

Песочница Hortonworks 2.1 | Разделенный класс cascading.tap.hadoop.io.MultiInputSplit не найден
Я выполняю ошпаривание в дистрибутиве Hortonworks (HDP 2.1), и возникает следующая проблема: Я попытался найти каскадную банку в Hortonworks, но не смог ее найти. Что я здесь делаю неправильно?
69 просмотров

Как выдавать кортежи вместо списка кортежей
У меня есть шпарящая работа, которая выглядит так: импортировать com.twitter.scalding.{Args, Csv, Job, TextLine} class DataJob(args: Args) extends Job(args) { val input = args("input") val output = Csv(args("output"), separator = ",")...
147 просмотров
schedule 02.12.2023

Ограничьте размер выходного файла редуктора с помощью Scalding
Я использую Scalding, и размер выходного файла составляет примерно 5,5 ГБ. (например, для 30 редьюсеров есть 30 файлов по 5,5 ГБ). Есть ли способ ограничить выходные файлы размером 512 МБ каждый? Я мог бы увеличить количество редукторов, но...
449 просмотров
schedule 22.12.2023

Смоделируйте источник TSV с помощью Scalding JobTest
Мне трудно сделать модульный тест для моей обжигающей работы. Моя работа ожидает файл с тремя полями: TextLine(args("input")) .map('url -> ('fetchedUrl,'date,'info)){ ... Наивно я ожидал, что поля будут сопоставлены как nTuple...
1177 просмотров
schedule 28.01.2024

Scalding: анализировать вложенный файл JSON с разными атрибутами
У меня есть вложенный файл JSON, где каждая запись может содержать другой набор полей во вложенной части. Поле выглядит так, хотя на самом деле это версия avro: {"type":"record", "name":"features", "namespace":"OurCode",...
176 просмотров
schedule 17.05.2024