Ниже приведено предложение, которое я хочу обработать. Он состоит из идентификаторов, которые начинаются с двух решеток впереди (##2312435
) плюс оставшийся текст. Мне нужно регулярное выражение, которое будет находить предложения со словом likely
в них и извлекать все предложение вместе с идентификатором.
Предложение:
##2312435 Джона нет дома. Джон, скорее всего, вернется домой после полуночи. Еще одно не связанное предложение. ##2233442 Марк очень зол. Марк, вероятно, выпьет пива сегодня вечером.
Мне удалось написать это:
(?=.\*((?<=##)\d+))(?=.*([^.]+(likely)+[^.]+))
но это не возвращает полное предложение.
Ожидаемый результат будет выглядеть так: 2312435 Джон, скорее всего, вернется домой после полуночи, 2233442 Марк, вероятно, сегодня вечером выпьет пива.
Я спрашиваю это только для общего ознакомления, потому что я изо всех сил пытаюсь справиться с поиском. Я уже решил это без регулярного выражения, но я подумал, что могу попробовать и попытаться получить необходимую информацию с помощью регулярного выражения. Спасибо
##
может встречаться несколько предложений сlikely
, а идентификатор находится в самом предложении. Вам нужен##
id и каждое из этих предложений или только первое? - person bobble bubble   schedule 08.06.2016\G
привязка, как в этой попытке (regex101), но, вероятно, есть лучшие решения. Еще одна проблема, о которой вообще не упоминалось, — разбор предложения на естественном языке. - person bobble bubble   schedule 08.06.2016