re.findall() не такой жадный, как ожидалось — Python 2.7

Я пытаюсь получить список полных предложений из открытого текста, используя регулярное выражение в python 2.7. Для меня не важно, чтобы все, что может быть истолковано как полное предложение, было в списке, но все в списке должно быть полным предложением. Ниже приведен код, иллюстрирующий проблему:

import re
text = "Hello World! This is your captain speaking."
sentences = re.findall("[A-Z]\w+(\s+\w+[,;:-]?)*[.!?]", text)
print sentences

Согласно этому тестеру регулярных выражений, теоретически я должен получить такой список:

>>> ["Hello World!", "This is your captain speaking."]

Но вывод, который я на самом деле получаю, выглядит следующим образом:

>>> [' World', ' speaking']

документация указывает, что findall выполняет поиск слева направо и что * и + операторы обрабатываются жадно. Цените помощь.

python regex findall

Lee Richards 06.05.2017 источник

comment

Когда вы используете группы захвата с re.findall, он возвращает только набор захватов, но не полное совпадение. Измените группу захвата (...) на группу без захвата (?:...). (и первые от \w+ до \w*). Ваша проблема не имеет ничего общего с жадностью. - Casimir et Hippolyte 07.05.2017

comment

Да, это сработало. Спасибо пачка. - Lee Richards 07.05.2017

comment

Это не точная копия stackoverflow.com/questions/ 31915018/ . В этом вопросе возникла непонятная проблема двойного экранирования \\ внутри необработанной строки. Этот вопрос более четко затрагивает суть одной проблемы, а именно поведения re.findall() при захвате групп. - Raymond Hettinger 07.05.2017

Ответы (2)

arrow_upward
6
arrow_downward

Проблема в том, что findall() показывает только захваченные подгруппы, а не полное совпадение. Согласно документам для re.findall() :

Если в шаблоне присутствует одна или несколько групп, вернуть список групп; это будет список кортежей, если шаблон имеет более одной группы.

Легко увидеть, что происходит, используя re.finditer () и изучение соответствующих объектов< /а>:

>>> import re
>>> text = "Hello World! This is your captain speaking."

>>> it = re.finditer("[A-Z]\w+(\s+\w+[,;:-]?)*[.!?]", text)

>>> mo = next(it)
>>> mo.group(0)
'Hello World!'
>>> mo.groups()
(' World',)

>>> mo = next(it)
>>> mo.group(0)
'This is your captain speaking.'
>>> mo.groups()
(' speaking',)

Решение вашей проблемы состоит в том, чтобы подавить подгруппы с помощью ?:. Тогда вы получите ожидаемые результаты:

>>> re.findall("[A-Z]\w+(?:\s+\w+[,;:-]?)*[.!?]", text)
['Hello World!', 'This is your captain speaking.'

Raymond Hettinger 06.05.2017

arrow_upward
0
arrow_downward

Вы можете несколько изменить свое регулярное выражение:

>>> re.findall(r"[A-Z][\w\s]+[!.,;:]", text)
['Hello World!', 'This is your captain speaking.']

dawg 08.05.2017

re.findall() не такой жадный, как ожидалось — Python 2.7

Ответы (2)

Вопросы по теме