При обработке естественного языка есть много сложных задач. Эта запись в блоге посвящена обобщению текста, в котором кратко излагается обзорная статья по этой теме. (ArXiv: 1707.02268) Авторы статьи определили задачу как

Автоматическое резюмирование текста - это задача создания краткого и понятного резюме при сохранении ключевого информационного содержания и общего смысла.

В основном есть два подхода к этой задаче:

  • извлекающее обобщение: определение важных разделов текста и их извлечение; и
  • абстрактное обобщение: создание итогового текста по-новому.

Большинство разработанных алгоритмических методов относятся к экстрактивному типу, в то время как большинство писателей-людей подводят итоги с использованием абстрактного подхода. В экстрактивном подходе есть много методов, таких как определение заданных ключевых слов, определение предложений, похожих на заголовок, или обработка текста в начале документов.

Как мы проинструктируем машины выполнять экстрактивное суммирование? Авторы упомянули о двух представлениях: теме и индикаторе. В представлении тем используются частоты, tf-idf, скрытое семантическое индексирование (LSI) или тематические модели (например, скрытое распределение Дирихле, LDA). Однако простое извлечение этих предложений с помощью этих алгоритмов может не дать читаемого резюме. Использование баз знаний или рассмотрение контекстов (из веб-поиска, переписки по электронной почте, научных статей, авторских стилей и т. Д.) Являются полезными.

В представлении индикаторов авторы упомянули графические методы, вдохновленные PageRank. (см. это) Предложения образуют вершины графа, а ребра между предложениями показывают, насколько похожи эти два предложения. И ключевые предложения идентифицируются с помощью алгоритмов ранжирования. Конечно, можно использовать и методы машинного обучения.

Оценка работы по реферированию текста затруднительна. Человеческая оценка неизбежна, но при ручном подходе можно вычислить некоторую статистику, например ROUGE.

Исходное сообщение: https://datawarrior.wordpress.com/2018/03/08/summarizing-text-summarization/