Есть ли какой-то способ или действие в UIPath, где мы можем проверить, является ли файл PDF документом 1-го поколения? Мы будем очень благодарны за идею или помощь. Спасибо.
Как мы можем проверить в uipath, является ли PDF-файл документом 1-го поколения?
comment
Что такое первое поколение? Первоначальное создание без правок?
- person kwoxer   schedule 03.09.2020
comment
Это тип оригинального документа. Не сканировано в компьютер
- person   schedule 03.09.2020
comment
Я никогда не слышал, чтобы для этого использовался термин «первое поколение». Обычно они называются цифровыми или родившимися цифровыми документами. Исходя из этого и других вопросов, которые вы разместили, я думаю, вам нужно прочитать формат файла PDF, чтобы вы понимали, почему вопросы, которые вы задаете, чрезвычайно сложны.
- person David van Driessche   schedule 03.09.2020
Ответы (1)
Это больше похоже на взлом, чем на правильное решение, но оно должно работать: используйте операцию оцифровки в пакете IntelligentOCR с OCR, которое, как вы знаете, возвращает достоверность слов (я думаю, что Microsoft OCR выполняет, но дважды проверяет). Действие Digitize решит, нужно ли ему OCR или нет, и если OCR не используется (то есть это собственный документ или первое поколение, как вы его называете), то все OCRConfidences в DOM будут равны -1.
Для этого есть два предостережения:
- оцифровка может решить использовать OCR в собственном PDF-файле, а также в некоторых странных крайних случаях, если решит, что текст документа нечитаем (например, из-за сверхъестественных пользовательских шрифтов)
- хотя в настоящее время не поддерживается, действие оцифровки может в какой-то момент в будущем выполнять частичное распознавание текста, например, когда собственный PDF-файл содержит изображение с текстом. Как и любую недокументированную функцию, используйте с осторожностью, так как она может выйти из строя в любой момент в будущем при обновлении до новой версии.
person
Tudor Carean
schedule
09.10.2020