Создание панели управления Tableau с использованием Impala в качестве источника данных

У меня есть таблица imapla, которая содержит объемные записи (39885593), и мне нужно создать информационную панель, используя таблицу impala через Tableau.

Я пытался выполнить это требование несколькими способами, как показано ниже.

1) Извлечены данные из таблицы импала в экстракте Таблицы, а затем создана панель управления. 2) Сначала используйте извлечение данных, а затем переключите соединение на соединение в реальном времени 3) Соединение в реальном времени

Подход 1: Возможность создать информационную панель с извлечением данных. Дает хорошую производительность. Проблема с этим подходом заключается в том, что данные - это транзакционные данные, которые растут каждый день, поэтому, если я буду использовать этот подход, извлечение данных займет больше места на сервере Tableau.

Подход 2: Используя этот подход, я могу эффективно спроектировать информационную панель, однако, когда я переключаю соединение с извлечения данных на Live и публикую информационную панель, публикация информационной панели также занимает много времени, когда я просматриваю информационную панель через сервер Tableau для открытия приборной панели. в браузере занимает больше времени.

Подход 3: Live Connection дает очень низкую производительность при разработке и публикации информационной панели.

Если кто-то сталкивался с таким требованием, не могли бы вы предложить мне то же самое.

Спасибо


person Rakesh Agarwal    schedule 31.05.2015    source источник


Ответы (2)


Если вам не нужен мгновенный прямой доступ к миллионам записей транзакций, я рекомендую работать с извлечениями (возможно, с несколькими извлечениями).

Но уменьшите размер отрывков до минимума, необходимого для поддержки вашей визуализации. Вы можете добавить фильтры источников данных, скрыть неиспользуемые поля, объединить данные для агрегирования в экстракте до уровня детализации, необходимого для вашего представления.

Для больших наборов данных не пытайтесь сделать единственный экстракт, который является просто копией всего вашего набора данных, сделайте несколько меньших, каждый из которых поддерживает только информацию, необходимую для одного (или небольшого набора) связанных представлений. Думайте об отрывке как о материализованном представлении.

Если представление отображает только 100 отметок, то стремитесь иметь только 100 записей в извлечении, которое оно использует, даже если это 100 записей, суммирующих информацию из 100 миллионов в базовом источнике данных.

Затем у вас может быть более крупный отрывок или даже живой источник, который люди могут использовать при переходе к (отфильтрованному) подробному представлению, и первые представления вашей панели мониторинга могут запускаться быстро.

Таким образом, интерактивность, обновление и публикация могут быть быстрыми.

Чтобы этот подход сработал, вам, возможно, придется привыкнуть к тому, что в вашей книге есть несколько источников данных, даже если они основаны на одной и той же базе данных. А также использование действий фильтра, параметров и вычисляемых полей для фильтрации и связывания источников данных.

person Alex Blakemore    schedule 03.06.2015

Вы говорите, что живое соединение дает низкую производительность, может быть, вы могли бы попробовать агрегировать данные в Impala с помощью пользовательского SQL-запроса, прежде чем вводить в Tableau?

person maxymoo    schedule 31.05.2015