Инструмент построения данных (dbt) — это преобразующий инструмент в современном стеке данных, который за последние несколько лет приобрел значительную популярность. Это делает SQL более удобным для сопровождения, многократного использования и мощным. dbt позволяет аналитикам данных и инженерам более эффективно преобразовывать данные в своих хранилищах, используя те же методы, которые разработчики программного обеспечения применяли к своему коду в течение многих лет.

В этой статье мы углубимся в работу dbt, от основ до более сложных операций.

Что такое дбт?

dbt, сокращение от Data Build Tool, представляет собой инструмент командной строки, который позволяет аналитикам данных и инженерам более эффективно преобразовывать данные в вашем хранилище. dbt выполняет «T» в процессах ELT (извлечение, загрузка, преобразование) — он не извлекает и не загружает данные, но отлично справляется с преобразованием. Он помогает преобразовывать необработанные данные в вашем хранилище в удобные для анализа наборы данных, выполняя операторы выбора SQL и создавая представления или таблицы в вашей базе данных.

Как работает ДБТ?

Деятельность dbt можно разделить на две основные области:

  1. Преобразование данных. dbt расширяет возможности преобразований SQL, позволяя пользователям разбивать на модули и повторно использовать свой код SQL, обеспечивая выполнение преобразований в правильном порядке, проверяя согласованность результатов и автоматически создавая документацию.
  2. Контроль версий и совместная работа: совместимость dbt с системами контроля версий, такими как git, позволяет создавать рабочие процессы разработки, которые делают совместную работу и контроль версий возможными и эффективными.

Давайте углубимся в каждый из них.

Преобразование данных

SQL-преобразования

По своей сути dbt — это инструмент для запуска сценариев SQL. dbt позволяет вам писать модульные SQL-запросы, которые затем управляются и выполняются в правильном порядке. Это делается с помощью моделей, которые представляют собой простые операторы выбора SQL, создающие отношение (представление или таблицу) в базе данных.

Модульность и возможность повторного использования

dbt продвигает использование модульного кода SQL. Это достигается путем разделения кода SQL на несколько файлов (моделей), каждый из которых создает отдельные отношения базы данных. Затем эти модели могут ссылаться друг на друга…