Мне было интересно, есть ли что-то, чего мне не хватает при работе с несколькими экземплярами одного и того же поля с меткой в пользовательской модели распознавателя форм Azure (с метками)? Давайте использовать следующий (ОЧЕНЬ упрощенный) документ, например:
Теперь, если я обучаю модель определять «Имя», «Дата рождения» и «Компания», я получаю следующие результаты:
{
"fields": {
"Name": {
"value_type": "string",
"label_data": null,
"value_data": {
"page_number": 1,
"text": "John R. Smith Ronald Johnson., Esquire",
"bounding_box": [
[
0.57,
4.435
],
[
1.8,
4.435
],
[
1.8,
6.005
],
[
0.57,
6.005
]
],
"field_elements": null
},
"name": "Name",
"value": "John R. Smith Ronald Johnson., Esquire",
"confidence": 1
},
...
Как видите, между каждым «экземпляром» поля Name
в JSON результатов распознавателя форм Azure нет разделителя. Как мне обучать и / или работать с результатами поля таким образом, чтобы я мог извлекать каждый экземпляр данного поля из документа?
Первое, что я попробовал, - это пометить имя метки и значение поля из документа и обучиться этому. Например, Name: John R. Smith
и Name: Ronald Johnson., Esquire
будут тем, что я пометил в FOTT как поле Name
для этого обучающего примера. Затем я разделил бы результат на Name:
. В теории это кажется прекрасным, но на практике я получил ОЧЕНЬ низкую точность по сравнению с выбором ТОЛЬКО значения поля и тренировкой по ним.