При обработке естественного языка есть много сложных задач. Эта запись в блоге посвящена обобщению текста, в котором кратко излагается обзорная статья по этой теме. (ArXiv: 1707.02268) Авторы статьи определили задачу как
Автоматическое резюмирование текста - это задача создания краткого и понятного резюме при сохранении ключевого информационного содержания и общего смысла.
В основном есть два подхода к этой задаче:
- извлекающее обобщение: определение важных разделов текста и их извлечение; и
- абстрактное обобщение: создание итогового текста по-новому.
Большинство разработанных алгоритмических методов относятся к экстрактивному типу, в то время как большинство писателей-людей подводят итоги с использованием абстрактного подхода. В экстрактивном подходе есть много методов, таких как определение заданных ключевых слов, определение предложений, похожих на заголовок, или обработка текста в начале документов.
Как мы проинструктируем машины выполнять экстрактивное суммирование? Авторы упомянули о двух представлениях: теме и индикаторе. В представлении тем используются частоты, tf-idf, скрытое семантическое индексирование (LSI) или тематические модели (например, скрытое распределение Дирихле, LDA). Однако простое извлечение этих предложений с помощью этих алгоритмов может не дать читаемого резюме. Использование баз знаний или рассмотрение контекстов (из веб-поиска, переписки по электронной почте, научных статей, авторских стилей и т. Д.) Являются полезными.
В представлении индикаторов авторы упомянули графические методы, вдохновленные PageRank. (см. это) Предложения образуют вершины графа, а ребра между предложениями показывают, насколько похожи эти два предложения. И ключевые предложения идентифицируются с помощью алгоритмов ранжирования. Конечно, можно использовать и методы машинного обучения.
Оценка работы по реферированию текста затруднительна. Человеческая оценка неизбежна, но при ручном подходе можно вычислить некоторую статистику, например ROUGE.
- Мехди Аллахьяри, Сейедамин Пурийе, Мехди Ассефи, Саид Сафеи, Элизабет Д. Триппе, Хуан Б. Гутьеррес, Крыс Кочут, Методы обобщения текста: краткий обзор, arXiv: 1707.02268 (2017). [ArXiv]
Исходное сообщение: https://datawarrior.wordpress.com/2018/03/08/summarizing-text-summarization/