В последние несколько месяцев экосистема данных продолжала развиваться по мере консолидации некоторых частей стека и возникновения новых проблем. Наша первая попытка помочь заинтересованным сторонам сориентироваться в этой экосистеме была посвящена 25 горячим новым инструментам обработки данных и тому, что они не делают - разъяснению конкретных проблем, которые указанные компании и проекты решали и НЕ решали.

Эти усилия были положительно восприняты сообществом специалистов по обработке и анализу данных, а также стимулировали более активное участие, чем мы первоначально ожидали. Кроме того, мы были польщены, увидев, что исходный пост мотивирует другие наводящие на размышления статьи, такие как 20 горячих новых инструментов для обработки данных и их стратегии раннего вывода на рынок.

Продолжая

Тем не менее, мы быстро поняли, что наш исходный пост не зашел достаточно далеко, поскольку мы получили десятки электронных писем, сообщений в Twitter и Slack DM о других решениях, которые не были рассмотрены. Мы пролили свет на небольшой уголок расширяющейся вселенной инструментов и платформ обработки данных, но была возможность охватить еще больше.

Хотя мы не можем вести хронику каждого дополнительного инструмента данных в одном посте, мы продолжаем наши усилия по развитию этой экосистемы, выделяя еще несколько. Создатели этих инструментов не только занимают значимые части постоянно развивающегося современного стека данных, они любезно откликнулись на наши запросы, чтобы помочь нам понять, где они подходят.

Они здесь звучат своими словами.

Дополнительные инструменты и ответы

  1. Верфь: верфь - это платформа для оркестровки рабочих процессов, которая помогает командам быстро запускать, отслеживать и обмениваться данными, не беспокоясь об управлении инфраструктурой. Он позволяет пользователям создавать повторно используемые чертежи, беспрепятственно обмениваться данными между заданиями и запускать код без каких-либо проприетарных настроек, при этом динамически масштабируя ресурсы. Верфь НЕ является инструментом без кода и не поддерживает управление версиями или визуализацию данных.
  2. Count: Count - это блокнот данных, который заменяет информационные панели для отчетов и самообслуживания и поддерживает преобразование данных. Count уникально хорош для совместной работы в команде, позволяя техническим и нетехническим пользователям работать в одном ноутбуке. Count - это НЕ блокнот для науки.
  3. Castor: Castor уникально хорош в организации информации о данных для поддержки обнаружения данных, соответствия GDPR и управления знаниями. С помощью решения Plug-and-Play Castor создает исчерпывающую и действенную карту всех активов данных. Castor НЕ ЯВЛЯЕТСЯ инструментом визуализации данных или бизнес-аналитики.
  4. Census: Census уникально хорош для синхронизации моделей данных из хранилища с бизнес-инструментами, такими как Salesforce. Он дополняет существующие хранилища, загрузчики данных и инструменты преобразования, позволяя группам данных управлять бизнес-операциями. Это НЕ инструмент без кода и не автоматическое моделирование ваших данных; он полагается на аналитиков, пишущих модели на SQL.
  5. Итеративно: Итеративно - это реестр схем, который помогает командам совместно определять, использовать и проверять свои аналитические данные. Используя Iteratively, вы можете быстрее отправлять высококачественную аналитику и предотвращать распространенные проблемы с качеством данных и конфиденциальностью, которые подрывают доверие. Итеративно НЕ является инструментом бизнес-аналитики, конвейером данных или инструментом преобразования.
  6. StreamSQL: StreamSQL обеспечивает развертывание, управление версиями и совместное использование функций модели. Используя ваши определения, он генерирует функции как для обслуживания, так и для обучения. Его реестр упрощает повторное использование функций разными командами и моделями. Stream НЕ управляет моделями и полностью не зависит от того, что вы делаете с функциями после их получения.
  7. Xplenty: Xplenty - это облачное решение ETL, обеспечивающее простые визуализированные конвейеры данных для автоматизированных потоков данных через широкий спектр источников и мест назначения. Он уникально хорош для приема больших объемов данных, выполнения преобразований данных без кода и планирования рабочих процессов. Xplenty НЕ выполняет потоковую передачу событий.
  8. Vectice: Vectice уникально хорош для отслеживания, документирования, организации всех активов ИИ (например, наборов данных, функций, моделей, экспериментов, информационных панелей, записных книжек) и базовых знаний предметной области для успешного управления и масштабирования корпоративных инициатив ИИ. Vectice НЕ предоставляет время выполнения или вычислительную среду.
  9. Snowplow Analytics: Snowplow - это движок потоковых поведенческих данных, который уникально хорош для создания данных о событиях из выделенных SDK для Интернета / мобильных устройств / серверов, улучшения этих данных и их доставки в ваше хранилище данных. Snowplow НЕ ЯВЛЯЕТСЯ инструментом интеграции данных (ELT), общей структурой потоковой передачи или инструментом бизнес-аналитики.
  10. Datafold: Datafold уникально хорош для сравнения наборов данных в хранилище данных SQL или между хранилищами данных. Он позволяет запускать git diff для таблицы любого размера. Datafold НЕ является базой данных (он работает поверх существующей инфраструктуры) и НЕ работает с файлами.
  11. Splitgraph: Splitgraph - это инструмент для создания, расширения, управления версиями и совместного использования баз данных SQL, который уникально хорош для улучшения существующих инструментов. Splitgraph также имеет каталог данных, включающий 40K открытых наборов данных, которые можно запрашивать (и объединять) с помощью любого клиента SQL. Splitgraph - это НЕ база данных.
  12. Datacoral: Datacoral уникально хорош в автоматическом создании конвейеров приема и преобразования данных из декларативных спецификаций на основе SQL, а также в автоматическом захвате и отображении происхождения на уровне схемы. Datacoral отлично работает с инструментами приема данных, такими как сегмент, и инструментами управления рабочими процессами, такими как Airflow. Datacoral НЕ ЯВЛЯЕТСЯ хранилищем данных или механизмом запросов.
  13. Apache Arrow: Apache Arrow уникально хорош как независимый от языка стандарт для быстрой аналитической обработки в памяти и эффективного межпроцессного переноса (с минимальными накладными расходами) больших наборов табличных данных. Несмотря на то, что он задуман как вычислительная основа для проектов фреймов данных, он НЕ заменяет инструменты, предназначенные для конечных пользователей, такие как pandas.
  14. Datasaur: Datasaur создан для поддержки разметки NLP с помощью предложений с помощью машинного обучения. Он поддерживает управление персоналом, обеспечивает конфиденциальность данных и может быть интегрирован через API в любой рабочий процесс машинного обучения. Datasaur НЕ обрабатывает ограничивающие рамки для маркировки изображений / видео.
  15. Datakin: Datakin - это решение DataOps, которое помогает гарантировать бесперебойную работу конвейеров данных и надежность полученных данных. Это достигается за счет автоматического обнаружения происхождения данных и предоставления инструментов для быстрого выявления и решения проблем. Datakin НЕ является каталогом данных и не заменяет какие-либо существующие компоненты инфраструктуры данных (оркестровка рабочего процесса, обработка данных и т. Д.).
  16. ApertureData: ApertureData - это база данных для визуальных данных, таких как изображения, видео, векторы функций и связанных метаданных, таких как аннотации. Он изначально поддерживает сложные операции поиска и предварительной обработки над медиа-объектами и интегрируется с облачным хранилищем и фреймворками машинного обучения, такими как PyTorch / Tensorflow. ApertureData НЕ извлекает метаданные или функции из изображений / видео.
  17. Orchest: Orchest уникально хорош в оказании помощи специалистам по данным в интерактивном построении конвейеров обработки данных, предоставляя визуальную среду редактирования конвейеров в браузере. Шаги конвейера - это записные книжки или скрипты в контейнерах. Orchest НЕ заменяет записные книжки Jupyter, не предоставляет инструмент без кода и НЕ предлагает собственную вычислительную инфраструктуру.
  18. Gazette: Gazette - это потоковая платформа с открытым исходным кодом, которая устраняет разрыв между пакетными данными и данными в реальном времени, позволяя пользователям создавать приложения реального времени с семантикой точно один раз. Он предлагает потоки сообщений в реальном времени, которые изначально и надежно хранятся в виде обычных файлов в облачном хранилище. Gazette НЕ ЯВЛЯЕТСЯ инструментом ETL или аналитической платформой.
  19. Coiled: Coiled отлично справляется с масштабированием рабочих процессов обработки данных и машинного обучения в нативном Python с использованием Dask, который хорошо знаком, широко применяется и дает отличную обратную связь. Coiled - это самоуверенный способ разбиться на кластеры и облако, оставаясь в экосистеме PyData. Coiled / Dask НЕ является заменой базы данных или Kubernetes.
  20. Upsolver: Upsolver - это облачное решение для интеграции структурированных и неструктурированных данных в облачное хранилище. Он использует визуальный интерфейс SQL для быстрого и легкого преобразования данных. Upsolver НЕ является решением платформа как услуга, которое требует от разработчиков написания дополнительного кода и изучения низкоуровневых концепций обработки данных.
  21. Soda: Soda уникально хорош в создании и мониторинге показателей наблюдаемости данных. Его агент сбора метрик с открытым исходным кодом предоставляет инженерам по данным и аналитике простую расширяемую структуру для обеспечения наблюдаемости в их озере данных и хранилище. Soda НЕ ЯВЛЯЕТСЯ фреймворком для оркестрации, планирования или моделирования данных.

Как авторы (Сара, Эйб и Пит) мы коллективно размышляем о том, как мы можем расширить эти усилия и создать постоянно растущий список, который помогает практикам находить и применять правильные инструменты, основатели согласовываются с лучшими партнерами. , а инвесторы сопоставляют компании со своими инвестиционными тезисами. Мы с нетерпением ждем ваших мыслей о лучшем средстве для продолжения этого исследования при поддержке сообщества.