Быстрое сравнение конституций Бразилии и Португалии с помощью Text Mining в R
Это быстрое и в основном наглядное сравнение некоторых особенностей текущих конституций Бразилии и Португалии, предназначенное для использования некоторых концепций интеллектуального анализа текста и выявления некоторых сходств и различий между конституциями.
Что вы здесь увидите:
- Текстовый анализ
- Наиболее частые слова
- Облака слов
- TF-IDF
Методы
Для этого анализа я использовал концепции и пакеты Text Mining в R, и вкратце шаги следующие:
- Импорт текста Конституции
- Удаление игнорируемых слов, т. Е. Классов слов, таких как статьи, предлоги, которые на самом деле не добавляют большого значения к тексту.
- Токенизация, то есть сокращение фраз до слов
После этого мы получаем фрейм данных, который выглядит так:
Теперь мы готовы построить несколько базовых графиков для каждого из документов.
Конституция Бразилии 1988 г.
В стране, закаленной годами военной диктатуры, смены руководства и несколько освеженной недавним движением за прямые выборы «Diretas Já», была очевидная потребность в менее авторитарной конституции, которая, по крайней мере на бумаге, давала бы власть вернулась к народу.
Именно этого и пыталась добиться Конституция Бразилии 1988 года. Несмотря на критику за ее пространный и чрезмерно аналитический характер, действующая Федеральная конституция была принята в 1988 году, и это определенно стало важной вехой в демократической истории страны.
После удаления стоп-слов остается:
Всего слов: 25042
Всего уникальных слов: 4700
% уникальных слов: 18,76
10 самых распространенных слов в Конституции Бразилии:
Несколько быстрых заметок:
- «Федеральный», «национальный» и «унион» представляют верхнюю позицию в иерархии федерального правительства.
- «Estados» и «municípios» представляют две другие ветви власти, государства и муниципалитеты.
- Интересно отметить, что португальский эквивалент ценностей и понятий, таких как общество, справедливость, ресурсы и люди, не появляется до 12-го места.
С помощью пакета worcloud2 мы создаем облако слов под красивыми цветами бразильского флага и с силуэтом карты Бразилии:
Как и в любом облаке слов, чем больше слово, тем оно встречается чаще. Цвет в данном случае случайный.
Конституция Португалии 1976 г.
После левого переворота в 1976 году португальскому народу также была нужна новая Конституция, предыдущей которой было более 40 лет. Хотя в Португалии почти всегда было больше стабильности с точки зрения правительства и политики, в документе 1976 года было внесено несколько нововведений, таких как четкое определение парламента, премьер-министра, политических партий и выборов, а также независимой судебной системы.
С точки зрения текста конституция Португалии также довольно многословна, хотя и не совсем так, как нынешний бразильский документ:
Всего слов: 15111
Всего уникальных слов: 3107
% уникальных слов: 20,56
10 самых распространенных слов в действующей Конституции Португалии:
Примечания:
- Понятно, что «Лей» является наиболее распространенным словом, как и португальская версия «Закона».
- Другие слова обозначают большую озабоченность общими интересами, по крайней мере, по сравнению с Конституцией Бразилии. Такие слова, как «Assembly», «direito / direitos», «cidadãos», очень заметны и входят в десятку лучших.
Посмотрите также на слово «облако» для общих слов в Конституции Португалии, не в масштабе.
TF-IDF и независимые условия
TF-IDF - это мера, предназначенная для демонстрации важности слова в коллекции документов, в данном случае комбинации обеих конституций. Он четко показывает слова, которые используются исключительно в определенном документе или чаще встречаются в документе, чем другие в группе. Чтобы узнать больше о TF-IDF, проверьте здесь.
На приведенном ниже рисунке показаны слова, которые чаще встречаются в одном документе, но не встречаются или не встречаются в другом. Термины слева, такие как «федеральный», «конгрессо» и «дополнительный», используются только в Конституции Бразилии, в то время как «ассемблея», «автономас» и «экономико» используются только в португальском документе.
Примечание: есть такие слова, как «económico» и «сектор», которые в Бразилии пишутся иначе, чем в Португалии, поэтому для «нормализации» обоих типов португальского языка потребуется дополнительное исследование. И это, вероятно, скоро станет самостоятельным исследованием, следите за обновлениями.
Последние мысли
- Text Mining - отличный метод анализа текстов, который позволяет нам сравнивать документы, столь важные, как конституция страны.
- Конституция Бразилии многословна и немного длиннее, чем конституция Португалии.
- По крайней мере, когда речь идет о наиболее употребительных словах, Конституция Португалии больше ориентирована на общее благо и содержит множество примеров португальских эквивалентов слов «социальный», «права» и «граждане».
- Такие слова, как «федеральный», «конгрессо» и «дополнительный» используются почти исключительно в Конституции Бразилии, а «ассамблея», «автономас» и «экономико» - только в Конституции Португалии.
Чтобы увидеть полный код и тексты, использованные в этом посте, перейдите на мою страницу GitHub и проверьте некоторые из моих последних работ здесь.