Во многих исследованиях машинного обучения были внедрены системы для расшифровки и перевода древних текстов на современный язык, и они оказались полезными для ученых в области истории, археологии и цифровых гуманитарных наук. Теперь исследователи из Университета Шеффилда, Университета Бейхан и Института СМИ Открытого университета предложили подход к трансфертному обучению, который может автоматически обрабатывать исторические тексты на семантическом уровне для создания резюме на современном языке. Этот метод превосходит стандартные кросс-языковые тесты по этой задаче.

Резюмирование исторического текста можно рассматривать как уникальную форму межъязыкового реферирования. Однако прогрессу в традиционном кросс-языковом реферировании препятствовали ограниченные исторические и современные языковые корпуса и развивающийся словарный запас, орфография, значения и грамматика. Решая эти задачи, исследователи разработали подход, основанный на трансфертном обучении.

Модель была построена для немецкого и китайского языков, каждый из которых имеет богатое текстовое наследие и доступные (одноязычные) учебные ресурсы. Немецкий и китайский также представляют собой алфавитную и идеографическую системы письма, соответственно, что облегчит будущее применение этого метода на других языках.

Исследователи объясняют, что предложенная ими модель резюмирования исторического текста основана на структуре обучения межъязычным переносом, представленной в статье 2019 года Обзор моделей встраивания межъязычных слов, и может быть загружена даже без перекрестного -лингвальные (от исторического до современного) наблюдения или данные.

Поскольку это первое исследование подобного рода по обобщению исторических текстов, не существовало аналогичных методов для сравнения характеристик моделей. Исследователи отмечают, что такие обобщения в основном требуются для повествовательных текстов, таких как новости, хроники, дневники и мемуары, и поэтому с помощью экспертов в этой области создали сводный корпус исторических новостей на немецком и китайском языках, получивший название «HISTSUMM».

Команда использовала два современных базовых уровня для стандартного кросс-языкового реферирования и провела обширные автоматические и человеческие оценки на основе информативности, краткости, беглости и актуальности с использованием стандартной метрики ROUGE. Результаты показывают, что предлагаемые модели сопоставимы или немного превосходят базовые подходы для немецкого языка и значительно превосходят китайские. Исследователи говорят, что новая модель также является ориентиром для будущих исследований в этой области.

Документ Обобщение исторического текста на современных языках находится на arXiv, а связанный с ним код и данные - на проекте GitHub.

Аналитик: Рейна Ци Ван | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить какие-либо новости или открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly , чтобы получать еженедельные обновления AI.