В соавторстве с Карлом Александром Джахья и Джастином Дехорти

Создание цифрового двойника может оказаться непростой задачей. Даже с помощью превосходных инструментов, таких как Классификаторы, огромный размер и сложность реального объекта часто могут представлять собой серьезное препятствие на пути к успешному созданию цифрового двойника.

Рассмотрим следующий сценарий:

Представьте, что это ваш первый рабочий день в Комиссии по ядерному регулированию. В качестве вашей первой задачи на вас возлагается огромная ответственность за оцифровку содержимого нарисованных и отсканированных вручную схем процессов и приборов (P&ID), созданных за 40 лет, в рамках проекта по созданию цифровых двойников для различных атомных электростанций.

Вы не являетесь экспертом в области P&ID, поэтому ваш руководитель помогает вам начать работу с завода, на котором имеется «всего» несколько десятков листов P&ID. Вам удается найти легенду всех возможных символов, которые можно использовать при расшифровке чертежей, и вы быстро понимаете, почему никто не выполнил эту задачу до вас: у вас есть десятки других заводов с документами, охватывающими десятилетия, и используемые символы далеки от стандартизированы и меняются в зависимости от места и времени. Вы делаете последний глоток своего пятого кофе и понимаете, что, скорее всего, уйдете на пенсию, прежде чем сможете выполнить грандиозную задачу.

Возможно, можно было бы ускорить рабочий процесс маркировки с помощью программного решения, которое анализирует документы P&ID и маркирует все символы для вас. Из-за критической роли атомных станций вам придется просматривать метки программ, чтобы перепроверить их точность, но, по крайней мере, это сэкономит вам огромное количество времени и уменьшит вашу рабочую нагрузку от утомительной маркировки до несколько менее утомительного просмотра. Однако многие диаграммы были сделаны десятилетия назад с использованием старых технологий, а многие даже нарисованы от руки. Из-за различий между символами даже высокооптимизированный алгоритм, основанный на созданной вручную эвристике, будет иметь проблемы с точностью.

Войдите в машинное обучение.

Благодаря последним достижениям в области машинного обучения (ML) такой рабочий процесс наконец стал возможен. Новый рабочий процесс маркировки P&ID платформы iTwin использует современную архитектуру машинного обучения для быстрой и надежной идентификации символов на диаграммах.

Вы начинаете с создания проекта и импорта данных, которые у вас есть для определенного актива. Решение поддерживает файлы .pdf (одностраничные или многостраничные, векторные или растровые), а также распространенные форматы изображений (.jpg, .png, .bmp и т. д.). Вы импортируете 35-страничный PDF-файл и запускаете обработку перед тем, как отправиться на обед с коллегами. Вы возвращаетесь через час, чтобы посмотреть на свои результаты; Модель машинного обучения обнаружила более 9000 компонентов в ваших P&ID.

Но вы знаете, что модели машинного обучения не идеальны. Их обучают распознавать символы, показывая сотни примеров различных компонентов, взятых из сотен примеров различных источников данных. Даже после долгих тренировок модели машинного обучения остаются всего лишь «людьми» и могут ошибаться. Из-за этого они могут воспользоваться помощью реального человека для проверки своих прогнозов. Итак, вы открываете первый лист и начинаете просматривать результаты.

Результаты перечислены по категориям компонентов: шаровые краны, центробежные насосы, преобразователи расхода, и все редкие или необычные компоненты объединены в категорию универсального оборудования. Вы открываете одну из этих категорий и начинаете просматривать отдельные элементы. Мало того, что элементы расположены на листе P&ID с ограничивающей рамкой, вокруг которой вы можете быстро масштабировать при запросе объекта, но большинство компонентов также имеют пользовательские метки или теги. Конвейер машинного обучения объединяет результаты обнаружения объектов с оптическим распознаванием символов (OCR). Затем OCR обнаруживает текст в третьей модели, которая связывает текст с символами, которые они описывают, и извлекает уникальные идентификаторы.

Первый лист, который вы просматриваете, написан от руки, и с качеством изображения вы приятно удивлены тем, что ваши первые несколько элементов правильно классифицированы, и вы их утверждаете. Позже вы обнаружите несколько случаев, когда OCR перепутал буквы и цифры (8 вместо B) или когда алгоритм включил общий тег для марки клапана в уникальный идентификатор оборудования. Вы корректируете пользовательские метки и утверждаете проверенные компоненты. Если бы вы знали ожидаемый формат тега для конкретных компонентов, вы могли бы передать эту информацию в виде регулярных выражений алгоритму, который мог бы автоматически выполнить большинство этих замен за вас.

Вы продолжаете процесс, утверждая правильно предсказанные элементы, удаляя ложные обнаружения, корректируя ограничивающую рамку, когда это необходимо, и изменяя класс или метку пользователя, когда происходит ошибка. Для классов, у которых нет уникальных идентификаторов, таких как редукторы каналов, вы быстро выделяете все элементы и проверяете все ложные обнаружения по отдельности, прежде чем утверждать остальные.

В течение часа вы просмотрели все 9000 прогнозов модели. Чтобы завершить процесс обзора, вам нужно всего лишь добавить несколько элементов, которые были пропущены в модели, в основном потому, что это уникальные или редкие суда, и у модели нет большого количества примеров для изучения. Вы сохраняете результаты своей проверенной таблицы P&ID и экспортируете ее в формате .json, и вы с волнением начинаете думать обо всех способах использования этих данных для объединения информации в P&ID с другими источниками данных, такими как базы данных инвентаризации активов.

Когда вы покидаете офис в ту ночь, вы находитесь на пути к созданию своего первого цифрового двойника атомной станции, и вы можете открыть банку пива и расслабиться, зная, что сложная задача стала намного более управляемой благодаря искусственному интеллекту. Этой ночью модель ML не будет спать; он будет занят изучением еще большего, просматривая сделанные вами обзоры и включая их в свою постоянно растущую базу знаний.