Платформа данных, созданная бывшими инженерами Uber для внедрения машинного обучения

Большая часть инноваций и эволюции инфраструктуры данных за последние два десятилетия была рождена крупнейшими технологическими компаниями. Платформы Hadoop были отмечены Google и Yahoo — Facebook создал Cassandra и Presto для хранения и запроса данных в больших объемах, Kafka был создан внутри LinkedIn, а Uber быстро масштабировал и внедрил машинное обучение в масштабах всей компании.

Для многих предприятий внедрение машинного обучения в производство было невозможно. Талантов не хватает, современное состояние быстро развивается, и отсутствует инфраструктура, легко доступная для операционализации моделей. Хотя некоторые технологические компании используют машинное обучение в производстве в течение многих лет, существует разрыв между немногими избранными, обладающими такими возможностями, и большей частью остальной части Global 2000. Некоторые внутренние платформы машинного обучения в этих технологических компаниях стали хорошо известны, например как TFX от Google, FBLearner от Facebook и Michelangelo от Uber. Благодаря собственному опыту внедрения машинного обучения многие из этих компаний узнали, что большая часть сложности заключается не в выборе и обучении моделей, а в управлении рабочими процессами, ориентированными на данные (разработка функций, обслуживание, мониторинг и т. д.). в настоящее время не обслуживается доступными инструментами.

У нас в Lux есть опыт инвестирования в компании, использующие машинное обучение. Кроме того, наш опыт и извлеченные уроки распространяются не только на наш собственный портфель, но и на предприятия из списка Global 2000, которым мы продаем наш портфель. Каждый раз, когда множество разрозненных компаний создают внутренние индивидуальные решения, мы должны задаться вопросом — можно ли это сделать лучше? В частности, чтобы определить области инвестиционных возможностей, мы задаем себе очень сложный вопрос из двух слов: «что отстойно?». Инструментарий для операционализации моделей совершенно неадекватен. Мы часто слышим историю о том, что специалисты по обработке и анализу данных создают многообещающие автономные модели с помощью ноутбуков Jupyter, но могут потребоваться многие месяцы, чтобы привести модели в рабочее состояние. Команды попытаются объединить несколько проектов с открытым исходным кодом и скриптов Python; многие будут прибегать к использованию платформ, предоставляемых поставщиками облачных услуг. Чего, как мы заметили, сегодня не хватает (и что отстойно), так это инструментов на уровне данных и объектов. Целая экосистема компаний была построена вокруг предоставления продуктов для devops, но инструменты для науки о данных, инженерии данных и машинного обучения все еще невероятно примитивны.

Tecton была основана Майком Дель Бальсо, Джереми Херманном и Кевином Штумпфом, которые познакомились в Uber и отвечали за создание Michelangelo, крупномасштабной внутренней платформы машинного обучения Uber. Микеланджело поддержал более 100 вариантов использования и более 10 000 моделей в производстве, применяя машинное обучение для решения таких задач, как улучшение взаимодействия с пользователем, прогнозирование ожидаемого времени прибытия и обнаружение мошенничества. В Uber команда заметила, что инженеры тратят большую часть своего времени на выбор и преобразование функций во время обучения, а затем на построение конвейеров для внедрения этих функций в производственные модели. Эту проблему мы неоднократно слышали от других компаний из разных отраслей. Tecton сосредоточен на решении этих и других проблем путем создания корпоративной платформы данных, которая поможет командам внедрить машинное обучение и обеспечить эффективное сотрудничество специалистов по обработке и анализу данных.

Управление данными и выполнение таких операций, как обнаружение, выбор и преобразование функций, обычно считаются одними из самых сложных аспектов рабочего процесса машинного обучения. У Микеланджело была концепция «хранилища функций», чтобы облегчить эти проблемы, создав центральный общий каталог готовых к производству прогностических сигналов, доступных командам для немедленного использования в своих собственных моделях. Решая распространенную проблему «разрозненной разработки», эта платформа привнесла уровень стандартизации, управления и совместной работы в рабочие процессы, которые ранее были разрозненными. Точно так же Tecton хочет привнести лучшие практики в рабочие процессы данных, лежащие в основе разработки и эксплуатации производственных систем машинного обучения. Платформа предоставит любому предприятию — независимо от того, насколько оно большое или маленькое — возможность усилить свои усилия по машинному обучению, предоставив им аналогичную инфраструктуру и возможности, которые в противном случае были бы доступны только крупным технологическим компаниям.

Миссия Tecton — сделать машинное обучение мирового класса доступным для каждой компании. Мы гордимся тем, что присоединились к их начальному сбору в размере 25 миллионов долларов США + сбору серии A, и очень рады сотрудничать с Майком, Джереми, Кевином и остальной частью команды в этом путешествии.

Следите за командой в твиттере @TectonAI.