Как написать регулярное выражение для соответствия строковому литералу, где экранирование является удвоением символа кавычки?

Я пишу синтаксический анализатор, используя ply, который должен идентифицировать строковые литералы FORTRAN. Они заключаются в одинарные кавычки, а управляющий символ — в двойные одинарные кавычки. то есть

'I don''t understand what you mean'

является допустимой экранированной строкой FORTRAN.

Ply принимает ввод в виде регулярного выражения. Моя попытка пока не работает, и я не понимаю, почему.

t_STRING_LITERAL = r"'[^('')]*'"

Любые идеи?

Brendan 26.01.2010 источник

Ответы (4)

arrow_upward
20
arrow_downward

Строковый литерал:

Открытая одинарная кавычка, за которой следует:
Любое количество двойных одинарных кавычек и не одинарных кавычек, затем
Близкая одинарная кавычка.

Таким образом, наше регулярное выражение:

r"'(''|[^'])*'"

Anon. 26.01.2010

comment

Кажется, это не обрабатывает escape-последовательности. - Cyoce; 07.04.2016

arrow_upward
4
arrow_downward

Вы хотите что-то вроде этого:

r"'([^']|'')*'"

Это говорит о том, что внутри одинарных кавычек вы можете иметь либо двойные кавычки, либо символ без кавычек.

Скобки определяют класс символов, в котором вы перечисляете символы, которые могут совпадать или не совпадать. Он не допускает ничего более сложного, поэтому попытка использовать круглые скобки и сопоставить многосимвольную последовательность ('') не работает. Вместо этого ваш класс символов [^('')] эквивалентен [^'()], то есть он соответствует всему, что не является одинарной кавычкой или левой или правой скобкой.

John Kugelman 26.01.2010

arrow_upward
1
arrow_downward

Обычно легко получить что-то быстрое и грязное для разбора конкретных строковых литералов, которые доставляют вам проблемы, но для общего решения вы можете получить очень мощное и полное регулярное выражение для строковых литералов из модуль pyparsing:

>>> import pyparsing
>>> pyparsing.quotedString.reString
'(?:"(?:[^"\\n\\r\\\\]|(?:"")|(?:\\\\x[0-9a-fA-F]+)|(?:\\\\.))*")|(?:\'(?:[^\'\\n\\r\\\\]|(?:\'\')|(?:\\\\x[0-9a-fA-F]+)|(?:\\\\.))*\')'

Я не уверен в существенных различиях между строковыми литералами FORTRAN и Python, но это удобный справочник, по крайней мере.

Mu Mind 07.03.2011

comment

Это, кажется, не обрабатывает f-строки. - Dmitri Nesteruk; 14.02.2019

arrow_upward
0
arrow_downward

import re

ch ="'I don''t understand what you mean' and you' ?"

print re.search("'.*?'",ch).group()
print re.search("'.*?(?<!')'(?!')",ch).group()

результат

'I don'
'I don''t understand what you mean'

eyquem 07.03.2011

Как написать регулярное выражение для соответствия строковому литералу, где экранирование является удвоением символа кавычки?

Ответы (4)

Вопросы по теме