Анализатор Elasticsearch для разбора логов приложений

  1. Я использую бит файла и могу успешно отправить журналы в elasticsearch в определенном индексе.

  2. У меня есть случай использования, когда мне нужно найти дубликаты в журналах, я пробовал использовать агрегацию и могу найти дубликаты в журналах для точного совпадения журналов, как показано ниже,

    2019-07-23 11:38: 17,401 WARN [org.amazon.events] (задача по умолчанию-3) type = LOGIN_ERROR, realmId = amazon, clientId = angular-cors, userId = 209fd7db-6964-41ff-bffd-3975ccbc03bb, ipAddress = 44.44.44.44, error = invalid_user_credentials, auth_method = openid-connect, grant_type = пароль, client_auth_method = client-secret, [email protected]

    2019-07-23 11:38: 17,401 WARN [org.amazon.events] (задача по умолчанию-3) type = LOGIN_ERROR, realmId = amazon, clientId = angular-cors, userId = 209fd7db-6964-41ff-bffd-3975ccbc03bb, ipAddress = 44.44.44.44, error = invalid_user_credentials, auth_method = openid-connect, grant_type = пароль, client_auth_method = client-secret, [email protected]

  3. Но скажем, что время и идентификатор задачи изменены, как показано ниже, но все же я хочу рассматривать это как повторяющийся журнал, как указано выше.

    2019-07-23 11:38: 18,401 WARN [org.amazon.events] (задача по умолчанию-4) type = LOGIN_ERROR, realmId = amazon, clientId = angular-cors, userId = 209fd7db-6964-41ff-bffd-3975ccbc03bb, ipAddress = 44.44.44.44, error = invalid_user_credentials, auth_method = openid-connect, grant_type = пароль, client_auth_method = client-secret, [email protected]

У меня есть один путь,

Решение:
i) Если я использую стандартный анализатор со стоп-словами, я смогу разделить как токены
ii) Пропустить и ПОЛУЧИТЬ только в токенах
iii) затем используйте запрос multi-match / most-like-this, чтобы проверить существующие журналы.

Это работает на данный момент. Но есть ли лучший способ получить только ключевые слова из журналов с помощью анализатора, чтобы у меня не было большого набора ключевых слов.

Anyhelp приветствуется.

Спасибо,
Гарри


person Harry    schedule 16.07.2020    source источник
comment
было бы здорово, если бы вы также могли указать, какие поля вы хотите рассматривать в качестве ключевого слова, и несколько примеров по этому поводу.   -  person user156327    schedule 17.07.2020
comment
У меня есть индекс журнала, который имеет 3 поля - имя хоста, данные журнала, заголовок. Где "logdata" содержит сообщение журнала в том виде, в каком оно было опубликовано. Я хочу проанализировать журналы, есть ли лучший способ найти дубликаты в журналах, где я хочу исключить время, uniqueId и т. Д., И сравнить только важные тексты @OpsterElasticsearchNinja   -  person Harry    schedule 17.07.2020
comment
@OpsterElasticsearchNinja, Если вам нужны другие подробности, дайте мне знать, пожалуйста   -  person Harry    schedule 17.07.2020
comment
@OpsterElasticsearchNinja, Не могли бы вы проверить, возможен ли мой запрос: stackoverflow.com/questions/63007991/   -  person Harry    schedule 21.07.2020
comment
извините за задержку, только что ответил на ваш вопрос.   -  person user156327    schedule 21.07.2020