Как мы можем проверить в uipath, является ли PDF-файл документом 1-го поколения?

Есть ли какой-то способ или действие в UIPath, где мы можем проверить, является ли файл PDF документом 1-го поколения? Мы будем очень благодарны за идею или помощь. Спасибо.


person Community    schedule 03.09.2020    source источник
comment
Что такое первое поколение? Первоначальное создание без правок?   -  person kwoxer    schedule 03.09.2020
comment
Это тип оригинального документа. Не сканировано в компьютер   -  person    schedule 03.09.2020
comment
Я никогда не слышал, чтобы для этого использовался термин «первое поколение». Обычно они называются цифровыми или родившимися цифровыми документами. Исходя из этого и других вопросов, которые вы разместили, я думаю, вам нужно прочитать формат файла PDF, чтобы вы понимали, почему вопросы, которые вы задаете, чрезвычайно сложны.   -  person David van Driessche    schedule 03.09.2020


Ответы (1)


Это больше похоже на взлом, чем на правильное решение, но оно должно работать: используйте операцию оцифровки в пакете IntelligentOCR с OCR, которое, как вы знаете, возвращает достоверность слов (я думаю, что Microsoft OCR выполняет, но дважды проверяет). Действие Digitize решит, нужно ли ему OCR или нет, и если OCR не используется (то есть это собственный документ или первое поколение, как вы его называете), то все OCRConfidences в DOM будут равны -1.

Для этого есть два предостережения:

  • оцифровка может решить использовать OCR в собственном PDF-файле, а также в некоторых странных крайних случаях, если решит, что текст документа нечитаем (например, из-за сверхъестественных пользовательских шрифтов)
  • хотя в настоящее время не поддерживается, действие оцифровки может в какой-то момент в будущем выполнять частичное распознавание текста, например, когда собственный PDF-файл содержит изображение с текстом. Как и любую недокументированную функцию, используйте с осторожностью, так как она может выйти из строя в любой момент в будущем при обновлении до новой версии.
person Tudor Carean    schedule 09.10.2020