Вопросы по теме 'apache-arrow'

Вопрос: Конструктор массивов Apache Arrow UnsafeAppend
Я работаю над создателем массивов UnsafeAppend api. Согласно коду в документе. arrow::Int64Builder builder; // Make place for 8 values in total builder.Resize(8); builder.UnsafeAppend(1); builder.UnsafeAppend(2); builder.UnsafeAppend(3);...
134 просмотров
schedule 26.09.2021

Низкая производительность Arrow Parquet нескольких файлов
После просмотра головокружительного вебинара на конференции Rstudio здесь меня накачали достаточно, чтобы выгрузить всю таблицу SQL-сервера в паркетные файлы. В результате получилось 2886 файлов (78 объектов за 37 месяцев), в общей сложности около...
43 просмотров
schedule 26.02.2022

В чем разница между ValueVectors Apache Drill и Apache Arrow?
Apache Drill имеет собственное столбцовое представление, такое как Apache Arrow. Но Apache Arrow поддерживает больше языков программирования. Я с нетерпением жду возможности использовать Apache Drill, но все же мне нужна поддержка языка...
597 просмотров
schedule 11.03.2022

Где я могу найти пример IPC с использованием Apache Arrow?
Я новичок в Apache Arrow и хочу запустить несколько тестов при настройке IPC (java или python). Есть ли другие ресурсы Arrow, на которые мне следует обратить внимание?
616 просмотров
schedule 17.03.2022

Как мы можем хранить хеш-таблицу в Apache Arrow?
Я новичок в Apache Arrow, поэтому этот вопрос может быть невежественным. Apache Arrow предоставляет возможность хранить структуры данных, такие как примитивные типы / структуры / массивы, в стандартизированном формате памяти. Интересно, можно ли...
346 просмотров
schedule 10.06.2022

SQL поверх стрелки apache в браузере?
У меня есть данные, которые хранятся в памяти браузера клиента. Например, предположим, что набор данных выглядит следующим образом: "name" (string), "age" (int32), "isAdult" (bool) "Tom" , 29 1 "Tom" ,...
1455 просмотров

DataFusion (Apache Arrow): как лениво читать пакеты результатов?
У меня есть запрос на объединение данных. Вместо того, чтобы ждать обработки всех пакетов, я хотел бы запустить некоторый код, как только первый пакет будет готов. Вот код ожидания и обработки: let dataframe =...
155 просмотров
schedule 24.04.2023

Pyspark записывает данные из блоков данных в azure sql: ValueError: некоторые типы не могут быть определены после вывода
Я пишу данные из лазурных блоков данных в лазурный sql с помощью pyspark. Код работает без нулей, но когда фрейм данных содержит нули, я получаю следующую ошибку: databricks/spark/python/pyspark/sql/pandas/conversion.py:300: UserWarning:...
324 просмотров
schedule 13.10.2022

Преобразование произвольных объектов в байты в Python3
Моя цель состоит в том, чтобы передать объект, который поддерживает протокол буфера, в генератор sha2 hashlib, чтобы хэши sha2, сгенерированные из одних и тех же базовых данных в разных средах выполнения, были согласованными, и поэтому их можно было...
37 просмотров
schedule 16.01.2023

Как загрузить файл CSV в векторы Apache Arrow и сохранить файл стрелки на диск
В настоящее время я играю с java API Apache Arrow (хотя я использую его из Scala для примеров кода ), чтобы ознакомиться с этим инструментом. В качестве упражнения я решил загрузить файл CSV в векторы стрелок, а затем сохранить их в файл...
2228 просмотров
schedule 06.11.2023