Развертывание успешной стратегии искусственного интеллекта // Часть 1: Данные

Эта статья является первой из шести частей серии Развертывание успешной стратегии искусственного интеллекта.

В первой части серии блогов я имею дело с стержнем каждого проекта ИИ: данными.

Точно так же, как каждому двигателю автомобиля для работы требуется бензин (или электричество), данные необходимы для моделей ИИ. Только с большим количеством высококачественных наборов данных проект ИИ может стать успешным, поэтому управление данными является важной, если не самой важной частью стратегии ИИ.

1. Получите обзор

Как объяснялось ранее, центральным ключевым элементом любой стратегии ИИ является сбор, подготовка и развертывание данных. Данные — это топливо любой стратегии ИИ, поэтому их также следует рассматривать как стратегический актив компании. Однако в настоящее время это редко встречается в бизнес-ландшафте. Особенно компаниям, которые только недавно оцифровали свои бизнес-процессы, придется столкнуться с проблемой организации данных и качества данных. Но даже у многих компаний, ориентированных на данные, здесь есть некоторые открытые фланги, потому что децентрализация и «лучшие в своем классе» подходы (часто являющиеся следствием строгого акцента на «время выхода на рынок») способствовали расхождению в том, как организуются данные. Конечно, прежде чем рассматривать реализацию стратегии данных, имеет смысл сначала навести порядок в собственном дворе.

2. Организуйте свои данные

Каталоги данных являются полезным инструментом для оценки и классификации существующих данных в соответствии с их актуальностью и качеством. С существующей стратегией данных необходимо согласовать ее в соответствии с принципами MECE (взаимоисключающие, совокупно исчерпывающие). Стратегия ИИ должна практически не иметь избыточности в наборах данных, но должна существенно дополнять и расширять ее.

Другой ключевой характеристикой качества каталога данных является относительная доля структурированных записей данных.

Как правило, компании имеют гораздо больше неструктурированных, чем структурированных записей. Проблема с неструктурированными записями данных заключается в том, что они требуют значительно больше времени на очистку и подготовку. Следовательно, анализ и предоставление этих данных во много раз более трудоемки, ресурсоемки и, следовательно, более затратны. По этой причине настоятельно рекомендуется обеспечить максимально структурированный сбор данных еще на этапе сбора данных.

3. Оцените свои данные

Поскольку цены на вычислительные хранилища за последнее десятилетие резко упали и, следовательно, начался рост технологий больших данных, теперь очень легко хранить данные в больших массивах. Тем не менее проверьте, действительно ли собранные наборы данных имеют отношение к вам, вашим клиентам и вашей организации. Часто собираются бесполезные данные, которые попадают в болото данных и могут повлечь за собой риски (например, соблюдение GDPR в ЕС или CCPA в США). Сосредоточьтесь на целях и ключевых показателях эффективности ваших клиентов и перепроектируйте их требования к данным, чтобы определить и приоритизировать важные данные. Чем больше работы вы уже вложили в сбор и подготовку данных к этому моменту, тем эффективнее и рентабельнее будут ваши проекты ИИ в будущем. Также подумайте, как данные обычно представляются вашим клиентам. Нередки случаи, когда очень сложные наборы данных подготавливаются и моделируются, а затем представляются заказчику в жалком виде. Вы можете согласовать подготовку данных с предпочтениями клиентов.

4. Документируйте свои данные

Как упоминалось ранее, документирование наборов данных является важным компонентом, которым нельзя пренебрегать. За последние три-пять лет стало ясно, что во всем мире наблюдается повышенная чувствительность к суверенитету и конфиденциальности данных. Вместе с GDPR ЕС также ратифицировал важный инструмент, который может привести к суровым наказаниям для компаний. Поэтому вы должны срочно учитывать такие законы в своей стратегии обработки данных с самого начала и соответствующим образом согласовывать сбор и обработку данных.

Ключи на вынос

  • Какие источники данных доступны и какова их актуальность?
  • Какие источники данных будут актуальны в ближайшие годы?
  • Как я могу хранить неструктурированные данные максимально структурированным способом?
  • Каковы ключевые KPI моих клиентов и какие данные для них требуются?
  • Как данные предоставляются организации и другим заинтересованным сторонам?
  • Как осуществляется документирование наборов данных?

Хотите узнать больше? Вернуться к обзору