Strata Data Conference New York 2019: как полностью раскрыть потенциал ваших данных

Strata Conference — одна из крупнейших конференций по большим данным в мире, которая пройдет в Нью-Йорке этой осенью (23–26 сентября).

О каких основных трендах будут говорить на этой конференции?

DataArt взял интервью у пяти заявленных спикеров конференции, чтобы узнать, как последние тенденции в области больших данных, машинного обучения и облачных технологий могут разрушить существующую бизнес-экосистему.

Strata NYC — Тенденция № 1: Правильное использование данных трансформирует несколько доменов

Большие данные, ИИ и машинное обучение предназначены не только для научных секторов. На самом деле они также используются в различных отраслях промышленности для оптимизации процессов и повышения точности расчетов.

Давайте углубимся в детали.

Конференция Strata Data 2019 расскажет о преимуществах машинного обучения

Машинное обучение может сильно повлиять на развитие любой отрасли, от FinTech до туризма. Нет никаких границ или пределов.

Ожидается, что среди прочих тем спикеры Strata New York обсудят следующие:

Как это будет выглядеть в реальности?

Объединяя ваших потенциальных потребителей в кластеры, машинное обучение поможет вам ориентироваться на наиболее ценные сегменты населения в целом.

В приведенном выше примере компания должна ориентироваться на клиентов из кластеров № 4 и № 9 в своих электронных письмах или AdWords, потому что эти клиенты значительно превосходят общую популяцию.

Извлечение каждой капли информации из ваших данных поможет сократить время и деньги, затрачиваемые на привлечение клиентов.

Когда стоимость пользовательского времени и внимания становится слишком высокой, чтобы ее игнорировать, внедрение системы рекомендаций на основе машинного обучения окажется бесценным для вашей организации.

Такие системы широко используются (но не ограничиваются) в розничной торговле, потоковой передаче музыки и видео по запросу.

Рассмотрим реальный пример.

Компания DataArt, занимающаяся разработкой программного обеспечения, создала механизм рекомендаций для ведущей американской сети распространения туров и мероприятий.

Решение DataArt предоставляет рекомендации относительно туров, мероприятий и мероприятий, потенциально актуальных для различных целевых аудиторий. Поскольку предложения различаются в зависимости от целевой аудитории (группы индивидуальных путешественников или участников корпоративных мероприятий), это создает новые финансовые возможности.

Strata Conference NYC 2019 расскажет о влиянии машинного обучения на управление качеством данных

Когда дело доходит до качества данных, не стоит недооценивать влияние машинного обучения.

Почему?

Потому что спикеры конференции, опрошенные DataArt, в целом согласны с тем, что машинное обучение позволяет последовательно анализировать данные, эффективно распределять и обрабатывать данные, а также автоматически обнаруживать выбросы.

Давайте посмотрим, как это работает на практике.

Для одного из своих клиентов корпоративного уровня DataArt разработала современную платформу обнаружения выбросов, основанную на технологии машинного обучения. Эта система автоматически ранжирует потенциальные аномалии в режиме реального времени.

Эту технологию можно легко адаптировать для других целей, таких как управление исключениями и обнаружение тенденций или мошенничества.

Strata New York 2019 представит успешные практики искусственного интеллекта

В то время как участники конференции Strata Data в Нью-Йорке будут обсуждать возможности, которые ИИ может помочь раскрыть, некоторые компании-участники продемонстрируют свои собственные результаты в этой области.

Например, DataArt уже разработала фармацевтическую вычислительную платформу на основе искусственного интеллекта, которая может ускорить поиск и разработку лекарств.

Скриншот фармацевтической платформы на базе искусственного интеллекта, разработанной DataArt

Эта платформа, созданная с использованием Scala, Akka, Mesos и Kafka, обеспечивает быстрые и надежные вычисления для сетей с десятками тысяч узлов и миллионами наблюдений.

Strata NYC — Тренд № 2: Оптимизация процессов с помощью бессерверных технологий

Еще одной темой конференции Strata Data в Нью-Йорке станут бессерверные приложения. Спикеры раскроют такие темы, связанные с облачными технологиями, как:

Разработка приложения для работы с большими данными на базе AWS
Бессерверное машинное обучение на основе TensorFlow и BigQuery
Облачные междисциплинарные рабочие нагрузки
Потоковая передача архитектуры и алгоритмов корпоративного уровня из облака
Преимущества облачных баз данных перед реляционными базами данных
Разница между общедоступными облаками и локальными частными облаками

Strata NYC — Тренд № 3: Обеспечение конфиденциальности и безопасности с помощью машинного обучения, искусственного интеллекта и больших данных

Защита данных становится все более важной для людей и компаний. В результате конфиденциальность данных быстро становится приоритетом номер один для владельцев приложений и платформ.

Эта проблема стала более актуальной, когда в 2018 году был подписан Закон о конфиденциальности потребителей Калифорнии (CCPA).

В соответствии с CCPA компании не могут делиться или продавать личную информацию пользователей, а пользователи контролируют личную информацию, которую компании собирают о них. Что еще более важно, предприятия несут ответственность за защиту личной информации своих пользователей.

Как бизнес может сделать это успешно? И как можно автоматизировать защиту данных?

Именно здесь вступают в игру машинное обучение, искусственный интеллект и большие данные.

Среди других смежных тем спикеры O’Reilly Conference, Strata New York, расскажут о:

Как защитить озера данных, чтобы подготовиться к регулированию CCPA
Как гарантировать кибербезопасность с открытым исходным кодом с помощью Apache Metron
Как использовать ИИ и большие данные для обеспечения продовольственной безопасности

Еще одной серьезной проблемой в сфере конфиденциальности и безопасности является предотвращение мошенничества.

Как ML может помочь в этом?

Вот пример. Для одного из своих клиентов DataArt создала платформу, которая обрабатывает исторические данные о транзакциях и ищет подозрительную активность, используя предопределенные правила. Cassandra и Spark гарантируют горизонтальную масштабируемость, а кластеры из шести узлов используются для эталонного тестирования.

Эта платформа обнаружения мошенничества может обрабатывать три ТБ данных и запускать предопределенные правила для 500 миллионов записей в час.

Что говорят об этой тенденции некоторые из докладчиков на предстоящей конференции Strata Data Conference в Нью-Йорке:

Кэролин Дуби, инженер по решениям и руководитель отдела кибербезопасности SME в Cloudera

Вопрос (В): Каковы варианты использования Apache Metron?
Каролин Дюби (CD): Apache Metron хорошо подходит для приема, подготовки и сортировка данных журнала в режиме реального времени. Он используется в операциях по обеспечению безопасности и управлении рисками.
Основные варианты использования:
1. Дополнение или замена информации о безопасности и управлении событиями (SIEM) для устранения «белых зон» безопасности. Принимайте журналы больших объемов, которые полезны для операций безопасности, но превышают традиционную скорость событий SIEM в секунду или масштабируемость. Например, журналы Netflow, pcap, DNS или оконечных точек Windows.
2. Масштабируемое хранение журналов. Сохраняйте сетевые данные в течение более длительного времени, чтобы повысить эффективность и полноту расследований, поиска угроз и соответствия требованиям.
3. Поиск угроз. Расширенная аналитика, более длительное хранение и единый репозиторий для данных журналов делают поиск угроз более продуктивным и помогают организациям повысить уровень безопасности за счет упреждающего обнаружения.
4. Обнаружение внутренних угроз. Расширенные встроенные функции обработки данных и профилирования помогают выявлять и определять приоритеты аномальных пользователей, трафика и других объектов.
5. Расширьте ресурсы центра управления безопасностью (SOC) для определения приоритетов предупреждений. Используйте время аналитиков SOC более эффективно, сопоставляя и приоритизируя оповещения из точечных решений, чтобы определить наиболее важные оповещения.
6. Автоматические ответы для уменьшения влияния инцидентов. Интегрируйте сортировку в реальном времени с оркестровкой безопасности, автоматизацией и реагированием, чтобы быстро реагировать на инциденты и снижать их влияние.
7. Аналитика безопасности и обработка данных. Metron нормализует и упорядочивает данные, поэтому он готов к аналитике и науке о данных.

В: Какие отрасли могут извлечь выгоду из Metron?
CD: Кибербезопасность — это проблема, затрагивающая все отрасли. Тем не менее, Metron наиболее полезен для организаций с большой площадью сети и компаний, которым доверены личные данные клиентов или финансовые активы, привлекающие противников. Примеры: телекоммуникации, финансовые компании и банки, страховые компании и больницы.

В: Какие есть альтернативы Apache Metron?
CD: Альтернативы включают устаревшие SIEM и другие платформы для защиты больших данных, такие как ELK или Splunk.

В: Каковы преимущества Apache Metron по сравнению с его альтернативами?
CD: Преимущества Metron включают:

1. Масштабируемая экономичная платформа для приема и хранения данных за годы, включая журналы, pcap и Netflow.
2. Полная прозрачность и контроль форматов хранения данных журналов. Metron построен на платформе с открытым исходным кодом. Организация контролирует время и формат хранения. Нет никаких «черных ящиков» или проприетарных форматов. Храните данные столько, сколько хотите, и оптимизируйте их для обеспечения доступности и контроля затрат.
3. Гибкое, настраиваемое решение. Полностью контролируйте сортировку и обогащение с помощью конфигураций без кода. Доступны расширения для кодирования, но обычно они не нужны.
4. Интеграция с вашими любимыми платформами визуализации и анализа данных. Открытые форматы данных поддерживают ваши любимые инструменты, позволяя вам получать доступ к данным журналов, когда вы наиболее продуктивны.
5. Безопасность и управление. Полная безопасность и управление с шифрованием при хранении и по сети. Элементы управления доступом, отвечающие строгим требованиям конфиденциальности, таким как Общий регламент по защите данных (GDPR).
6. Интеграция с комплексным решением с открытым исходным кодом для перемещения, сортировки, анализа, визуализации и создания моделей с журналом. данные. В сочетании с Apache Nifi, блокнотами Zeppelin, Spark, Hive, Solr и другими проектами больших данных с открытым исходным кодом вы получите комплексное решение.

Марк Донски, старший директор по управлению продуктами в Okera

В: Каковы потенциальные проблемы конфиденциальности озер данных?
Марк Донски (MD): Возможные проблемы:
1. Все они вращаются вокруг непреднамеренного доступа к конфиденциальным данным.
2. Непредвиденное сочетание данных может создать представление о личной жизни субъекта данных, которое противоречит предполагаемому использованию — будь то буква или смысл. Например, совместив чье-либо место назначения такси с его расходами по кредитной карте и планами поездок его супруга, чтобы сделать вывод о потенциальной неверности.
3. Можно экстраполировать личную медицинскую информацию на основе доплат к врачу, типов врачей и привычек расходов в аптеке.
4. Злоумышленники могут знать, когда чей-то дом будет пуст.

Неправомерное использование личных данных может привести к суровым наказаниям в соответствии со многими новыми правилами конфиденциальности, включая GDPR и CCPA.

В: Какие основные отрасли могут извлечь выгоду из использования озер данных? Почему?
МД: Основными отраслями, использующими озера данных, являются все отрасли, которые имеют возможность собирать данные о своих покупателях, клиентах и участниках. Сюда входят страхование, фармацевтика, финансы, образование, коммунальные услуги и розничная торговля.

Strata NYC — Тренд № 4: Глубокое обучение для улучшения прогнозов

Глубокое обучение — еще одна важная тема машинного обучения, которую будут обсуждать на Strata Data Conference 2019.

Спикеры конференции, опрошенные DataArt, видят светлое будущее для этой технологии.

Они ожидают, что глубокое обучение будет использоваться для обработки естественного языка (NLP), и они планируют использовать этот подход для прогнозирования временных рядов.

Они также ожидают, что глубокое обучение будет доступно на мобильных и настольных устройствах.

Давайте посмотрим, как это работает на самом деле.

Это изображение было сгенерировано с помощью OpenCV и Python с использованием предварительно обученной модели Mask R-CNN.
Источник: www.pyimagesearch.com

Недавно DataArt создал решение для мониторинга исправности линий электропередач. Решение было построено с использованием слоев сверточной нейронной сети (CNN) и полносвязных (FC) на Google TensorFlow и Keras.

С помощью установленной на дроне камеры оператор анализирует поток изображений только с опорами ЛЭП, что позволяет оператору гораздо быстрее обнаруживать проблемы.

DataArt также разработала цифрового помощника по управлению взаимоотношениями с клиентами (CRM), который позволяет продавцам (например, в Salesforce) отслеживать контакты и учетные записи. Помощник поддерживает голосовое и текстовое общение через Skype или Google Assistant. Он также включает в себя богатую базу данных запросов и двухфакторную аутентификацию (2FA).

Что дальше? Скоро появятся Strata San Jose и Strata London

Если вы не можете попасть на конференцию Strata Data в Нью-Йорке в 2019 г., запланируйте конференцию Strata Data в Сан-Хосе (15–18 марта 2020 г.) или конференцию Strata Data в Лондоне (20–23 апреля 2020 г.).

Какие тренды будут в 2020 году? Видение данных? Распознавание изображений и голоса? Или капитальный ремонт устаревшего программного обеспечения корпоративного уровня с помощью машинного обучения?

Какими бы ни были последние тенденции, DataArt может помочь вам реализовать потенциал ИИ, машинного обучения и больших данных.

Первоначально опубликовано на https://blog.dataart.com 10 сентября 2019 г.