У меня есть html-файл, который имеет такую структуру:
<!doctype html public "-//w3c//dtd html 4.0transitional//en">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<meta name="Author" content="ERA">
<LINK REL=STYLESHEET TYPE="text/css" HREF="Style_Sheets/ERA_Internet_Printer.css">
</head>
<body>
<pre>
<font face="courier new" size=-4> 14V-IG-TEST-DATA - SERVC - EXEC# 4515
[11| Blubb,abcons, Port: 18 For: abcons
For period : GE 08/04/18 AND LE 11/04/18 OR GE 11/04/18 AND LE 11/05/18
01:45:40 11-04-18 - Page # 1
Serial#........................ 564561215
Make Desc...................... VW
Carline........................ MUX
Year........................... 2015
Cust# ........................ 512
License#....................... 78365HH
Open RO........................ R25625
EOR............................ EOR
Serial#........................ 2151512315
Make Desc...................... VOLKSWAGEN
Carline........................ VOLKSWAGEN
Year........................... 2017
Cust# ........................ 552
License#....................... DPA2151
Open RO........................ T52165
EOR............................ EOR
2 records listed.
</pre>
</body>
</html>
Я хочу получить информацию из файла, например «Ключ .......... Значение». Итак, я создал собственный классификатор в AWS Glue с помощью Grok, чтобы получить информацию. Классификатор настроен следующим образом: Пользовательский классификатор
Итак, шаблон Grok настроен следующим образом:
%{KEY:mykey}%{GREEDYDATA:myvalue}
с пользовательским шаблоном:
KEY ([a-zA-Z# 1-9]+\.+ )
Каждый онлайн-отладчик Grok (например, https://grokdebug.herokuapp.com/) получает информацию из структура данных с этой конфигурацией. Но когда я запускаю краулер в Glue с настраиваемым классификатором, он не находит никаких таблиц или структур.
Что я делаю неправильно?