Быстрое сравнение конституций Бразилии и Португалии с помощью Text Mining в R

Это быстрое и в основном наглядное сравнение некоторых особенностей текущих конституций Бразилии и Португалии, предназначенное для использования некоторых концепций интеллектуального анализа текста и выявления некоторых сходств и различий между конституциями.

Что вы здесь увидите:

  • Текстовый анализ
  • Наиболее частые слова
  • Облака слов
  • TF-IDF

Методы

Для этого анализа я использовал концепции и пакеты Text Mining в R, и вкратце шаги следующие:

  • Импорт текста Конституции
  • Удаление игнорируемых слов, т. Е. Классов слов, таких как статьи, предлоги, которые на самом деле не добавляют большого значения к тексту.
  • Токенизация, то есть сокращение фраз до слов

После этого мы получаем фрейм данных, который выглядит так:

Теперь мы готовы построить несколько базовых графиков для каждого из документов.

Конституция Бразилии 1988 г.

В стране, закаленной годами военной диктатуры, смены руководства и несколько освеженной недавним движением за прямые выборы «Diretas Já», была очевидная потребность в менее авторитарной конституции, которая, по крайней мере на бумаге, давала бы власть вернулась к народу.

Именно этого и пыталась добиться Конституция Бразилии 1988 года. Несмотря на критику за ее пространный и чрезмерно аналитический характер, действующая Федеральная конституция была принята в 1988 году, и это определенно стало важной вехой в демократической истории страны.

После удаления стоп-слов остается:

Всего слов: 25042

Всего уникальных слов: 4700

% уникальных слов: 18,76

10 самых распространенных слов в Конституции Бразилии:

Несколько быстрых заметок:

  • «Федеральный», «национальный» и «унион» представляют верхнюю позицию в иерархии федерального правительства.
  • «Estados» и «municípios» представляют две другие ветви власти, государства и муниципалитеты.
  • Интересно отметить, что португальский эквивалент ценностей и понятий, таких как общество, справедливость, ресурсы и люди, не появляется до 12-го места.

С помощью пакета worcloud2 мы создаем облако слов под красивыми цветами бразильского флага и с силуэтом карты Бразилии:

Как и в любом облаке слов, чем больше слово, тем оно встречается чаще. Цвет в данном случае случайный.

Конституция Португалии 1976 г.

После левого переворота в 1976 году португальскому народу также была нужна новая Конституция, предыдущей которой было более 40 лет. Хотя в Португалии почти всегда было больше стабильности с точки зрения правительства и политики, в документе 1976 года было внесено несколько нововведений, таких как четкое определение парламента, премьер-министра, политических партий и выборов, а также независимой судебной системы.

С точки зрения текста конституция Португалии также довольно многословна, хотя и не совсем так, как нынешний бразильский документ:

Всего слов: 15111

Всего уникальных слов: 3107

% уникальных слов: 20,56

10 самых распространенных слов в действующей Конституции Португалии:

Примечания:

  • Понятно, что «Лей» является наиболее распространенным словом, как и португальская версия «Закона».
  • Другие слова обозначают большую озабоченность общими интересами, по крайней мере, по сравнению с Конституцией Бразилии. Такие слова, как «Assembly», «direito / direitos», «cidadãos», очень заметны и входят в десятку лучших.

Посмотрите также на слово «облако» для общих слов в Конституции Португалии, не в масштабе.

TF-IDF и независимые условия

TF-IDF - это мера, предназначенная для демонстрации важности слова в коллекции документов, в данном случае комбинации обеих конституций. Он четко показывает слова, которые используются исключительно в определенном документе или чаще встречаются в документе, чем другие в группе. Чтобы узнать больше о TF-IDF, проверьте здесь.

На приведенном ниже рисунке показаны слова, которые чаще встречаются в одном документе, но не встречаются или не встречаются в другом. Термины слева, такие как «федеральный», «конгрессо» и «дополнительный», используются только в Конституции Бразилии, в то время как «ассемблея», «автономас» и «экономико» используются только в португальском документе.

Примечание: есть такие слова, как «económico» и «сектор», которые в Бразилии пишутся иначе, чем в Португалии, поэтому для «нормализации» обоих типов португальского языка потребуется дополнительное исследование. И это, вероятно, скоро станет самостоятельным исследованием, следите за обновлениями.

Последние мысли

  • Text Mining - отличный метод анализа текстов, который позволяет нам сравнивать документы, столь важные, как конституция страны.
  • Конституция Бразилии многословна и немного длиннее, чем конституция Португалии.
  • По крайней мере, когда речь идет о наиболее употребительных словах, Конституция Португалии больше ориентирована на общее благо и содержит множество примеров португальских эквивалентов слов «социальный», «права» и «граждане».
  • Такие слова, как «федеральный», «конгрессо» и «дополнительный» используются почти исключительно в Конституции Бразилии, а «ассамблея», «автономас» и «экономико» - только в Конституции Португалии.

Чтобы увидеть полный код и тексты, использованные в этом посте, перейдите на мою страницу GitHub и проверьте некоторые из моих последних работ здесь.