Все говорят о данных, AI, ML. Да, это важно. Но мы должны начать с основного шага. Мы должны понимать, как мы будем собирать данные и использовать их.

Данные важны

Каждый менеджер, директор и исполнительный директор согласны с утверждением «Данные имеют решающее значение». Но когда вы спрашиваете, как вы управляете данными. К сожалению, ответ кажется нереальным. Они говорили о программном обеспечении для управления документами в облачном хранилище, BIM, ERP, инструментах планирования и т. Д. Хорошо, но где данные, как вы подходите к ним, каково влияние данных на проект.

Сбор данных - это не линейный процесс, он хаотичен и обычно включает неразмеченные отношения. Следовательно, сбор данных - самый важный этап всей работы ИИ.

Для вас все данные. Не только данные, введенные в системы, но и все неформальные или формальные отношения на строительной площадке имеют решающее значение в качестве источника данных.

Где данные?

Люди, Машины, Природа, Компании создают данные. Вопрос в том, сколько данных мы можем собрать. К сожалению, может быть получен лишь небольшой процент данных.

Как мы можем увеличить объем сбора данных?

Согласно нашим исследованиям, датчики Интернета вещей, мобильные телефоны, машины, чат-боты могут пассивно увеличивать сбор данных.

Если два инженера говорят о проблеме на строительной площадке, мы должны найти способ собрать эти данные. Мы, компания Botmore Technology, используем ChatBot для сбора этих данных. Считайте ChatBot новым интерфейсом, управляющим обменом сообщениями между разными сторонами и делающим данные более доступными для всех сторон. Эти данные так важны для понимания того, что происходит на строительной площадке и как вы можете повысить производительность.

Интернет вещей - еще один источник данных. Вы можете использовать датчики Интернета вещей для сбора данных о местоположении и производительности машины.

Фотографии и видео с данными о строительстве являются очень важными источниками данных для строительной площадки. Следовательно, мы должны собирать эти данные в одном центральном хранилище, и они должны быть легко доступны.

Все цифровые инструменты, такие как программное обеспечение для планирования, ERP, BIM, являются наиболее доступными источниками данных для строительного сектора. Хорошая сторона заключается в том, что данные обычно хорошо маркируются, а плохая - в том, что эти данные хранятся в разных хранилищах данных без надлежащей стратегии управления данными.

Стратегия данных

У вас есть данные. Данные выглядят как деньги в вашем банке. Вы можете дать разрешение финансовым консультантам управлять им или составить инвестиционный план. Я предлагаю вам составить план управления данными вместо того, чтобы делегировать этот процесс третьим лицам.

Во-первых, посмотрите, какие данные у вас на руках. Сделайте классификацию данных.

Функциональная классификация: классифицируйте данные по рабочим функциям. Например, планирование, дизайн, качество, безопасность, закупки и т. Д.

Классификация источников данных: Интернет вещей, чат-бот, Excel, оборудование, фотографии и т. д.

Классификация хранилищ данных: облако (Google Cloud, Amazon, Azure и т. д.), локальное



Тип базы данных: MySQL, MongoDB, Firestore, BigQuery и т. д.

Используя эти классификации, вы можете глубоко понять, как обрабатывать данные.

Мы знаем, что данные обычно хранятся в разных хранилищах. Следовательно, становится сложно работать с этими разными озерами данных. Следовательно, в своем плане данных вы должны указать, как данные будут передаваться между разными озерами данных.

Конечно, самая сложная часть - очистить данные. Да, все без исключения ваши данные будут иметь различные проблемы, такие как пропущенные значения, неправильный ввод данных, системные ошибки, неправильный выбор объекта и т. Д. Вам нужен строгий план очистки данных и их использования.

Анализировать данные

Теперь у нас есть данные и план управления данными. Теперь мы должны начать работу с данными, чтобы получить представление.

Во-первых, нам нужен список вопросов, на который мы попытаемся ответить, используя данные. Задавайте реальные вопросы без ограничений. Чтобы исследование данных не должно быть случайным экспериментом, данные должны давать значимые результаты, которые могут быть как положительными, так и отрицательными.

Не пытайтесь использовать данные в качестве доказательства своих идей. Такой подход просто делает ваш проект данных неудачным и вы теряете целостность. Данные должны быть независимыми, и вы должны использовать их, чтобы честно отвечать на вопросы бизнеса.

Второй шаг - поиграться с данными, чтобы увидеть различные детали. Используйте аналитический инструмент и экспериментируйте с данными, создавайте таблицы, графики, чтобы увидеть различные взаимосвязи. Используйте функции SQL для фильтрации, объединения и поиска данных, чтобы понять больше.

Третий шаг - поговорите с людьми, у которых есть жизненные проблемы. И прислушайтесь к их отзывам о ваших выводах в области анализа данных. Дайте им возможность поиграть с данными и сравнить их со своим опытом.

Цели

Вы можете сказать, что мы должны определить цели в самом начале проекта. На мой взгляд, цели могут иметь смысл после понимания данных. Итак, моя рекомендация - определять ваши цели после анализа данных. Например, одной из целей может быть уменьшение количества строительного мусора. Если у вас есть надлежащий набор данных об этой цели, эта цель может быть достигнута.

Более того, если вы сформулируете цели в начале проекта, группа данных сосредоточится на задачах, связанных с наборами данных, и эта ситуация может вызвать предвзятость.

Теперь пора использовать модели машинного обучения

На этом этапе вы можете начать использовать модели машинного обучения, чтобы показать результаты вашего анализа и решения бизнес-проблем.
Не используйте сложные алгоритмы, начните с простых алгоритмов, таких как регрессия. Будьте последовательны в создании групп данных для тестирования и проверки. Используйте тестовые данные для настройки алгоритма и используйте группу проверочных данных для проверки вашей модели.

Переобучение может стать вашим кошмаром, будьте осторожны.

Если алгоритм машинного обучения не работает, помните, что это возможность лучше понять данные и отношения между ними.

Прототип

После нахождения правильных алгоритмов машинного обучения пора разработать прототип. Не усложняйте жизнь, разработайте MVP. Покупатели должны легко это попробовать. Бета-пользователи очень важны для успеха.

В проектах AI нет версионирования. Проект учится на данных и постоянно меняется. Итак, необходимы проверки производительности и постоянное управление данными.

Производство

У вас есть прототип, отзывы пользователей бета-версии и постоянный поток данных. Мы должны быть осторожны с публикацией прототипа в производство. Зрелость и точность модели машинного обучения должны находиться в допустимых пределах. Следовательно, вам следует попробовать его в других условиях.

Если вы всегда будете пробовать модель машинного обучения в одних и тех же условиях, вы можете вызвать предвзятость и обмануть себя.

Получите доступ к экспертному обзору - Подпишитесь на DDI Intel