AWS Glue не классифицирует мои данные

У меня есть html-файл, который имеет такую ​​структуру:

<!doctype html public "-//w3c//dtd html 4.0transitional//en">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<meta name="Author" content="ERA">
<LINK REL=STYLESHEET TYPE="text/css" HREF="Style_Sheets/ERA_Internet_Printer.css">
</head>
<body>
<pre>
<font face="courier new" size=-4>                                                                                          14V-IG-TEST-DATA - SERVC - EXEC# 4515 
                                                                                          [11| Blubb,abcons, Port: 18 For: abcons

                                                                           For period : GE 08/04/18 AND LE 11/04/18 OR GE 11/04/18 AND LE 11/05/18 
                                                                                             01:45:40  11-04-18  -  Page #    1 


Serial#........................ 564561215
Make Desc...................... VW
Carline........................ MUX
Year...........................  2015
Cust#  ........................     512
License#....................... 78365HH
Open RO........................ R25625
EOR............................ EOR

Serial#........................ 2151512315
Make Desc...................... VOLKSWAGEN
Carline........................ VOLKSWAGEN
Year...........................  2017
Cust#  ........................     552
License#....................... DPA2151
Open RO........................ T52165
EOR............................ EOR
2 records listed.
</pre>
</body>
</html>

Я хочу получить информацию из файла, например «Ключ .......... Значение». Итак, я создал собственный классификатор в AWS Glue с помощью Grok, чтобы получить информацию. Классификатор настроен следующим образом: Пользовательский классификатор

Итак, шаблон Grok настроен следующим образом:

%{KEY:mykey}%{GREEDYDATA:myvalue}

с пользовательским шаблоном:

KEY ([a-zA-Z# 1-9]+\.+ )

Каждый онлайн-отладчик Grok (например, https://grokdebug.herokuapp.com/) получает информацию из структура данных с этой конфигурацией. Но когда я запускаю краулер в Glue с настраиваемым классификатором, он не находит никаких таблиц или структур.

Что я делаю неправильно?


person S. Read    schedule 24.04.2018    source источник


Ответы (1)


Я думаю, вы столкнулись с проблемой, на которую я ответил здесь: https://github.com/aws-samples/aws-glue-samples/issues/4

В документации AWS есть скрытое предложение, которое гласит: «Чтобы переклассифицировать данные для исправления неправильного классификатора, создайте новый сканер с обновленным классификатором».

Простое обновление классификатора и повторный запуск поискового робота не будут использовать обновленный классификатор.

person vkubushyn    schedule 05.09.2018