Большинство языков, на которых когда-либо говорили, больше не используются, поэтому теперь ИИ используется, чтобы помочь лингвистам переводить эти «мертвые» языки.

Большинство языков, на которых когда-либо говорили, «мертвы» или больше не используются. С каждым годом теряется все больше и больше древних или неизвестных языков, но для большинства из нас это не имеет значения, потому что мы на них не говорим. В конце концов, если они такие неизвестные, зачем нам вообще знать, как их переводить?

Дело в том, что язык - это не просто способ общения с кем-то, это контейнер знаний и культуры, уникальных для его носителей, и когда эти языки потеряны, так это знание. Лингвисты, люди, изучающие иностранные языки, пытаются расшифровать эти малоизвестные языки, но иногда это может занять десятилетия упорного труда. Языки могут иметь совершенно разные грамматику, словарный запас или синтаксис, что делает их практически невозможными для перевода. Кроме того, мы не можем использовать алгоритмы перевода, такие как Google Translate, потому что у нас недостаточно информации о большинстве мертвых языков. Итак, каково решение этой проблемы? Искусственный интеллект, по мнению группы исследователей Массачусетского технологического института (MIT).

Исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) предложили решение двух основных трудностей при расшифровке языков:

  1. Некоторые языки не разделяют скрипты на отдельные слова (без пробелов).
  2. Ближайший из известных языков неизвестен.

Исследователи создали систему машинного обучения (ML), которая может автоматически решать эти проблемы без необходимости знать много дополнительной информации. Эта система может определять ближайший известный язык к любому языку, на котором она переводится, и разделять разные слова, если язык естественным образом не сегментирован.

Группа исследователей во главе с доктором философии Массачусетского технологического института. студентка Джаминг Луо и профессор Массачусетского технологического института Регина Барзилай создали систему, используя методы обработки естественного языка (НЛП), подмножества ИИ, связанного с человеческим языком. Чтобы упростить расшифровку языков, система машинного обучения делает некоторые предположения, основанные на наблюдениях из истории лингвистики. Одно из таких предположений состоит в том, что звуки между похожими языками будут, в общем, похожими. Например, буква е, вероятно, не превратится в k из-за разницы в произношении.

Система исследователей использует лингвистические ограничения, подобные приведенному выше, с созданным ими алгоритмом дешифрования. Этот алгоритм берет надписи с утраченного языка и словарный запас на известном языке (например, английском или греческом) и возвращает показатель языкового сходства, который помогает лингвистам определить самый близкий известный язык к утерянному языку. Он также анализирует языковые звуки, представляя эти звуки в многомерном пространстве, где произношение отражается разными векторами.

Используя эти векторы, модель может обнаруживать закономерности в языке, а затем сегментировать слова, если в сценариях еще нет отдельных слов. Затем эти слова сопоставляются с их аналогами на известном языке с помощью модели, что помогает лингвистам получить полный перевод.

Этот алгоритм был протестирован на нескольких языках, и по большей части он оказался точным. Один важный тест был с иберийским языком. Лингвисты спорят о том, является ли иберийский самый близкий известный язык баскским, поэтому, чтобы выяснить, во что верит модель, исследователи из CSAIL использовали свой алгоритм, чтобы найти сходство иберийского с несколькими известными языками, включая баскский. Было обнаружено, что, хотя баскский и латинский языки были наиболее близкими к иберийскому языкам, разница была слишком большой, чтобы сделать вывод о родстве иберийского языка с баскским.

Исследователи полагают, что их система имеет большой потенциал для решения других задач, помимо дешифровки, в том числе для определения потерянных символов на утраченном языке. В будущем исследователи планируют модифицировать систему, чтобы выйти за рамки простого соединения текста на неизвестном языке с текстом на известном. Недостаток этого метода в том, что он предполагает, что существует известный язык, но это не всегда так, как показывает иберийский тест, упомянутый выше.

В настоящее время во всем мире говорят на таких языках, как английский, китайский и французский, но существует множество неизвестных языков, на которых говорят всего несколько человек во всем мире. Эти формы диалекта могут вскоре прекратить свое существование, а вместе с ними и культура, захваченная этими языками. Лингвисты изо всех сил пытаются расшифровать как можно больше «мертвых» языков, но с нынешней скоростью это может оказаться невозможным в течение длительного-долгого времени. Однако используйте искусственный интеллект, и этот показатель может значительно возрасти. За искусственным интеллектом и машинным обучением будущее, но теперь они помогают нам открывать для себя вещи прошлого.

Прочтите официальное исследование алгоритма дешифрования, о котором говорилось в этой статье здесь.