Вопрос по Python!
Мне нужна помощь по разделению предложений в текстовом файле. Я не хочу создавать массивный цикл if, но мне нужно найти способ разбить текстовый файл на предложения. Я должен сделать это без .readlines ()
Я хотел бы разбить предложения, используя точки, цитаты и восклицательные знаки ... НО:
- Точки, за которыми следует пробел, за которым следует строчная буква, не разделяют предложение.
- Точки, за которыми следует цифра без пробелов, не разделяют предложение.
- Такие вещи, как мистер, миссис, доктор и т. Д., Конечно, НЕ разделят предложение.
- последовательности букв, например, www.website.com и т. д.)
- и, наконец, точки, за которыми следуют знаки препинания, такие как запятые и другие точки (многоточия)
Я хотел бы, чтобы эти разбитые предложения из текстового файла были распечатаны для пользователя. Как бы мне подойти к этому процессу? Я понимаю базовое форматирование строк и индексы, но добавление эллипсов, фамилий и т. Д. Усложнит мне задачу ...
** Также будет использоваться tkinter для создания кнопки открытия файла и раскрывающегося меню, которое позволяет пользователю создавать новый текстовый файл из вывода программы по одному предложению в строке в файле .txt.
Спасибо!
Вот что у меня есть
import re
punctuation = ['.', '?', '!']
exceptions = ['Mr.', 'Mrs.', 'Ms.', 'Sr.', 'e.g', '...']
lines = []
with open('myData.txt') as myFile:
lines = re.split(punctuation, myFile)
if
цикла, посколькуif
не является циклической структурой. - person Two-Bit Alchemist   schedule 17.04.2014