Я использую бит файла и могу успешно отправить журналы в elasticsearch в определенном индексе.
У меня есть случай использования, когда мне нужно найти дубликаты в журналах, я пробовал использовать агрегацию и могу найти дубликаты в журналах для точного совпадения журналов, как показано ниже,
2019-07-23 11:38: 17,401 WARN [org.amazon.events] (задача по умолчанию-3) type = LOGIN_ERROR, realmId = amazon, clientId = angular-cors, userId = 209fd7db-6964-41ff-bffd-3975ccbc03bb, ipAddress = 44.44.44.44, error = invalid_user_credentials, auth_method = openid-connect, grant_type = пароль, client_auth_method = client-secret, [email protected]
2019-07-23 11:38: 17,401 WARN [org.amazon.events] (задача по умолчанию-3) type = LOGIN_ERROR, realmId = amazon, clientId = angular-cors, userId = 209fd7db-6964-41ff-bffd-3975ccbc03bb, ipAddress = 44.44.44.44, error = invalid_user_credentials, auth_method = openid-connect, grant_type = пароль, client_auth_method = client-secret, [email protected]
Но скажем, что время и идентификатор задачи изменены, как показано ниже, но все же я хочу рассматривать это как повторяющийся журнал, как указано выше.
2019-07-23 11:38: 18,401 WARN [org.amazon.events] (задача по умолчанию-4) type = LOGIN_ERROR, realmId = amazon, clientId = angular-cors, userId = 209fd7db-6964-41ff-bffd-3975ccbc03bb, ipAddress = 44.44.44.44, error = invalid_user_credentials, auth_method = openid-connect, grant_type = пароль, client_auth_method = client-secret, [email protected]
У меня есть один путь,
Решение:
i) Если я использую стандартный анализатор со стоп-словами, я смогу разделить как токены
ii) Пропустить и ПОЛУЧИТЬ только в токенах
iii) затем используйте запрос multi-match / most-like-this, чтобы проверить существующие журналы.
Это работает на данный момент. Но есть ли лучший способ получить только ключевые слова из журналов с помощью анализатора, чтобы у меня не было большого набора ключевых слов.
Anyhelp приветствуется.
Спасибо,
Гарри