Я разрабатываю приложение, в котором мне нужно обрабатывать текстовые файлы, содержащие электронные письма. Мне нужны все токены из текста, и следующее определение токена:
- буквенно-цифровой
- С учетом регистра (регистр должен быть сохранен)
- '!' и '$' следует рассматривать как составные символы. Пример:
FREE!!
,$50
— токены. '.' (точка) и запятая ',' должны рассматриваться как составляющие символы, если они встречаются между числами. Например:
192.168.1.1, $24,500
являются жетонами.
и так далее..
Пожалуйста, предложите мне несколько токенизаторов с открытым исходным кодом для Java, которые легко настроить в соответствии с моими потребностями. Будет ли достаточно просто использовать StringTokenizer и регулярное выражение? Я также должен выполнять остановку, и поэтому я искал токенизатор с открытым исходным кодом, который также будет выполнять некоторые дополнительные функции, такие как остановка, выделение.