Маниш Шарма, Спандан Сингх

Когда я начал заниматься технологиями в конце 90-х, моей первой остановкой была бизнес-аналитика, поэтому еще до того, как у нас появились какие-либо данные в Индии, я проповедовал бизнес-аналитику. Все были заинтригованы и никого не интересовали. Рынка для бизнес-аналитики просто не существовало, или никто не заботился об этом — за исключением одного проекта, который мы продали Tata Steel — проекта интеллектуального анализа данных — во что-то, во что даже они не верили. Но он был чрезвычайно успешным, и они даже написали тематическое исследование. Кроме того, нам почти не удалось убедить клиентов в важности Business Intelligence.

Перейдем к 2017 году, и бизнес-аналитика или BI — это горячая горячая вещь, которая вытесняет людей с работы, а компании — из бизнеса. Конечно, у бизнес-аналитики теперь есть новое имя — аналитика и интеллектуальный анализ данных теперь называются машинным обучением. Несмотря на то, что основы не изменились, BI или Analytics теперь совершенно новое животное. Это больше не тот вонючий пруд данных, который вы должны выкапывать, чтобы найти смысл — теперь это непрерывный поток данных, который необходимо анализировать и действовать в режиме реального времени, чтобы сделать ваш бизнес лучше.

Это также то, что стоит между вашей организацией и успехом.

В 99roomz мы создали наш веб-сайт и приложение для Android и начали размещать рекламу в поиске Google и Facebook, и мы потратили довольно много денег без особого успеха (хорошо, без успеха, буквально без успеха, у нас не было клиентов - ноль, пшик). На нашем сайте были встроены Google Analytics, MixPanel и KissMetrics, и мы пытались найти смысл. Увы, смысла не было найдено, каждый отдельный анализ означал сидеть в библиотеке и делать перекрестные ссылки на то, что значит что, а что нет. Настал ага-момент нашей компании — нам нужна была аналитика больше, чем сайт или приложение. Нам нужно было знать, что люди делают, когда они делают и, надеюсь, почему они это делают. Или мы могли бы просто продолжать тратить деньги на Google, не зная, что происходит с этими деньгами.

Таким образом, даже для того, чтобы стартап был успешным, ему с самого начала требовалась аналитика. Это было ново для меня. Это также был момент истины — теперь аналитика стала основой каждого бизнеса, нового и старого, малого и большого. Для стартапа было еще важнее инвестировать в аналитику, если им нужно было побеждать или конкурировать с более авторитетным игроком.

Ага моменты ничего не значат, идея требует исполнения.

Я начал возиться, чтобы посмотреть, какие технические достижения были сделаны в области аналитики, я начал с больших данных, самого распространенного и распространенного слова в аналитике, которое вы можете найти. Он пронизывает Интернет, как песок проникает в поры тех, кто занимается сексом на пляже. Я начал с больших данных и быстро оказался у большой стены. Большие данные на самом деле ничего не значили. Зилч — ноль. Все было большими данными, и ничто не было большими данными.

Я подумал, что это, должно быть, одно из тех слов, придуманных консультантами по ораторскому искусству, которые всегда стремятся заработать деньги, изрекая односложное решение ваших проблем. «Посмотрите, что вам нужно, это большие данные» — «это вылечит вашу компанию от вашего плохого управления, плохих менеджеров и глупого генерального директора Джини». Все были бы счастливы, а потом через полгода обнаружили бы — Большие данные ничего не значат. Это не было лекарством — черт возьми, это было даже не шарлатанство.

Большие данные были и решением, и не решением. Нам нужна была технология, которая помогла бы нам транслировать события на веб-сайте прямо к нам и позволила бы нам манипулировать поведением игрока в режиме реального времени. Думайте об этом, как о просмотре крикета — живите и управляйте ударами игрока с битой, управляя боулингом, не находясь на поле. Хм, сложный, сложный — да, очень — но не настолько, как набор технологий, доступных для этого. Итак, мы рассмотрели Hadoop, MySQL, MongoDB, Apache Spark, Apache Storm, Apache Kafka, Amazon Kinesis, RabbitMQ, Druid среди других продуктов для «больших данных».

Итак, теперь у нас есть проблема и множество продуктов для решения проблемы, Боже, хорошо, как мы выбираем из множества продуктов, чтобы найти решение. Больше месяца ушло даже на то, чтобы понять, какой продукт что делает и чем он может быть полезен или бесполезен для нашей цели.

Теперь проблема заключалась в разработке архитектуры для аналитики прямых трансляций.

После долгих размышлений и проб мы, наконец, остановились на вероятном решении нашей проблемы — NodeJS + Kafka + Druid + Spark + Dashboard. NodeJS служил точкой для выполнения всей нашей обработки за нас, включая извлечение данных и выполнение манипуляций, если это необходимо, Kafka буквально служил потоком данных в реальном времени, Druid был нашим сервером аналитики в реальном времени, Spark служил нашим озером данных, откуда мы могли запускать алгоритмы машинного обучения, а Dashboard был визуальным представлением — так называемым TV — нашего приложения для прямой трансляции.

Это только начало нашего аналитического решения, поскольку мы обнаруживаем больше способов, с помощью которых мы можем обогатить наши входящие данные, чтобы наша информация больше не была просто — входящий посетитель веб-сайта, посещающий страницу xx на нашем веб-сайте, но мужчина из Дели посещает наш недвижимость в Дехрадуне с тремя спальнями, 2 ванными комнатами и оценена гостями на 5 баллов. Такое обогащение сделало нашу аналитику намного лучше и почти в реальном времени, что позволило нам принимать более эффективные и быстрые решения.

Только большие данные могли сделать это возможным!