Вопросы по теме 'scalding'
Есть ли источник Scalding, который я могу использовать для lzo-сжатых двоичных данных?
Я записываю сериализованные записи Thrift в файл, используя сжатие LZO Elephant Bird . Для этого я использую их класс ThriftBlockWriter . Затем в моем задании Scalding используется FixedPathLzoThrift для обработки записей. Все работает...
369 просмотров
schedule
28.09.2021
Ошпаривание: необходимо читать файлы в разных форматах в зависимости от аргумента.
Я пытаюсь создать сценарий, который будет создавать канал из файла в формате avro или с разделителями на основе значения, переданного в качестве аргумента в командной строке. Я хочу взять эту трубку и поработать с ней. На данный момент у меня есть...
293 просмотров
schedule
22.10.2021
Scalding чтение нескольких файлов из HDFS
Как я могу прочитать все файлы из каталога на HDFS и обработать их с помощью scalding. Для локальной файловой системы я использую ниже
import com.twitter.scalding._
import com.twitter.scalding.JsonLine
import java.io._
class ParseJsonJob(args:...
1372 просмотров
schedule
08.05.2022
прочитать формулу, хранящуюся в текстовом файле, в scalding
Проблема в том, что у меня есть 2 файла: 1-й файл с 4 столбцами, как в
1,Санчит,60,80
2-й файл с 2 столбцами, как в
1,(1-(x/y))>1
теперь я хочу применить формулу во втором файле к значениям 60 и 80, которые я буду читать из первого...
114 просмотров
schedule
21.07.2022
Обжигающая оптимизация 'multimap()'
Являются ли следующие два блока кода эквивалентными с точки зрения производительности?
val input: TypedPipe[Person] = ....
input
.map(_.getName)
.map(_.split(" "))
а также...
val input: TypedPipe[Person] = ....
input...
134 просмотров
schedule
02.08.2022
Как группировать результаты в Scalding
Я пытаюсь вывести канал в разные каталоги, чтобы вывод каждого каталога был разделен на основе некоторых идентификаторов. Итак, в простом коде сокращения карты я бы использовал класс MultipleOutputs и сделал бы что-то подобное в редукторе....
278 просмотров
schedule
01.09.2022
Scalding (старые версии) счетчики на основе каскадирования
В более старых версиях scalding в его API еще не было counters . Счетчики Hadoop в Scalding подсказывает, как вернуться к каскадным счетчикам в scalding
def addCounter(pipe : Pipe, group : String, counter : String) = {
pipe.each(() ->...
194 просмотров
schedule
10.09.2022
Как реализовать соединение ИЛИ в Hadoop (обваривание/каскадирование)
Наборы данных легко объединять по одному ключу, просто отправив поле соединения в качестве ключа редуктора. А вот стыковать записи по нескольким ключам, где хотя бы один должен быть одинаковым, для меня не так просто.
Пример У меня есть журналы, и...
1229 просмотров
schedule
12.11.2022
Hadoop-Cascading: частичное касание источника каталога
Мои данные имеют такую структуру:
+data
|-2014080700_00.txt
|-2014080700_01.txt
|-2014080701_00.txt
|- ...
|-2014080723_00.txt
|-2014080800_00.txt
|- ...
|-2014090800_00.txt
Я знаю, что могу использовать весь файл внутри каталога данных с...
304 просмотров
schedule
23.03.2023
HBase Get/Scan в задании Scalding
Я использую Scalding с Spyglass для чтения/записи в HBase.
Я делаю левое внешнее соединение таблицы1 и таблицы2 и пишу обратно в таблицу1 после преобразования столбца. И table1, и table2 объявлены как Spyglass HBaseSource.
Это прекрасно...
141 просмотров
schedule
07.12.2022
Пример HBase to Hive с Scalding
Я пытаюсь прочитать данные из HBase, обработать их и затем записать в Hive. Я новичок в Scalding и Scala.
Я заглянул в SpyGlass для чтения из HBase. Он работает хорошо, и я могу прочитать данные, а затем записать их в файл.
val data = new...
544 просмотров
schedule
06.07.2023
Сгенерировать разницу List[String] в Scalding
У меня есть records:TypedType[(String, util.List[String])] в моей работе Scalding, где первое значение — это идентификатор, а второе — список вещей. Представьте себе следующее:
("1", ["a","b","c"])
("1", ["a","b","c"])
("1", ["a","b","c"])...
67 просмотров
schedule
04.07.2023
Песочница Hortonworks 2.1 | Разделенный класс cascading.tap.hadoop.io.MultiInputSplit не найден
Я выполняю ошпаривание в дистрибутиве Hortonworks (HDP 2.1), и возникает следующая проблема:
Я попытался найти каскадную банку в Hortonworks, но не смог ее найти. Что я здесь делаю неправильно?
69 просмотров
schedule
08.12.2022
Как выдавать кортежи вместо списка кортежей
У меня есть шпарящая работа, которая выглядит так:
импортировать com.twitter.scalding.{Args, Csv, Job, TextLine}
class DataJob(args: Args) extends Job(args) {
val input = args("input")
val output = Csv(args("output"), separator = ",")...
147 просмотров
schedule
02.12.2023
Ограничьте размер выходного файла редуктора с помощью Scalding
Я использую Scalding, и размер выходного файла составляет примерно 5,5 ГБ. (например, для 30 редьюсеров есть 30 файлов по 5,5 ГБ). Есть ли способ ограничить выходные файлы размером 512 МБ каждый? Я мог бы увеличить количество редукторов, но...
449 просмотров
schedule
22.12.2023
Смоделируйте источник TSV с помощью Scalding JobTest
Мне трудно сделать модульный тест для моей обжигающей работы.
Моя работа ожидает файл с тремя полями:
TextLine(args("input"))
.map('url -> ('fetchedUrl,'date,'info)){
...
Наивно я ожидал, что поля будут сопоставлены как nTuple...
1177 просмотров
schedule
28.01.2024
Scalding: анализировать вложенный файл JSON с разными атрибутами
У меня есть вложенный файл JSON, где каждая запись может содержать другой набор полей во вложенной части. Поле выглядит так, хотя на самом деле это версия avro:
{"type":"record",
"name":"features",
"namespace":"OurCode",...
176 просмотров
schedule
17.05.2024