Я ищу способ доказать, что участие граждан в процессе принятия решений является одним из ключевых факторов успеха будущего управления умным городом. Для этого я собирал данные об участии жителей в исследовании в трех тематических городах: Тайбэй (Тайвань), Тель-Авив (Израиль) и Таллинн (Эстония).

Я собрал 366 ответов (по 122 респондента в каждом городе), контактируя с жителями случайным образом в Интернете (группы Facebook, прямые сообщения в LinkedIn и через приложения для обмена сообщениями) и лично, в мероприятиях, связанных с моей сферой интересов (Smart-City и Urban Innovation). Стартапы).

В этой статье я провожу полный анализ данных моего опросного исследования с использованием языка программирования Python, чтобы подробно изучить функции и идеи, которые можно извлечь из моих результатов. Анонимный набор данных и записная книжка для кодирования доступны на моем Github здесь.

= ›Чтобы упомянуть эту статью:« НАУКА О ДАННЫХ: Модель ранжирования для участия граждан в умном городе ». Жюльен Карбоннелл, 2021, medium.com.

План

Введение - проблема, гипотеза, методология

  1. Описательная статистика - Распределения и отношения
    - Исследовательский анализ данных
    - Коэффициенты корреляции
    - Проверка гипотез
  2. Машинное обучение - Модели классификации
    - Разработка функций
    - Сравнение четырех моделей
    - Показатели точности
  3. Статистические выводы - Обобщение моей модели ранжирования
    - Вероятностное моделирование
    - Распределение вероятностей
    - Проверка гипотез

Заключение - запомнить для следующих шагов

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

Вступление

Проблемно:

В современных демократических режимах участие граждан широко рассматривается городскими профессионалами, как из государственного, так и из частного секторов, как ключ к успеху городских преобразований.
= ›Чтобы узнать больше о ключевых факторах успеха для умного города: Жюльен Карбоннелл «SMART-CITY: ключевые факторы успеха 2019, medium.com »

Соответственно, промоутеры «Умного города» во всем мире склонны делать упор на свои модели, ориентированные на граждан. Но нам не хватает методов и понимания того, как вовлечь жителей в принятие решений относительно будущего их городов. Широко используемые модели управления в значительной степени определяются методом дизайн-мышления, влияние которого на общество в масштабе мы не уверены. На практике мы даже можем сказать, что большая часть цифрового вовлечения граждан - это в основном коммуникационные кампании, которые не приносят удовлетворительного результата. Тем не менее, мы переживаем пессимистический гражданский кризис в большинстве современных демократий мира, с потерей доверия к государственным агентам и средствам массовой информации, политической апатией и незаинтересованностью в выборах большинства избирателей. В этом контексте крайне необходимо возродить у граждан ощущение того, что их мнение принимается во внимание при построении будущего их городов.

Мой подход к этой проблематике состоит в создании метода вовлечения граждан в Smart-City, путем классификации граждан, которые чувствуют себя наиболее заинтересованными, их профилирующих атрибутов и попытки определить переменные в зависимости от этого чувства вовлеченности.

Гипотеза:

  1. Граждане, которые чувствуют себя наиболее заинтересованными, хотят больше заниматься.
  2. Граждане, которые чувствуют себя наиболее заинтересованными, являются наиболее требовательными к частоте взаимодействия.
  3. Горожане, чувствуя себя наиболее заинтересованными, легко делятся своим мнением на публике.
  4. Граждане, которые чувствуют себя наиболее заинтересованными, склонны менять свое мнение в контакте с другими.
  5. Пол не имеет никакого отношения к чувству вовлеченности.
  6. Младшие граждане чувствуют себя менее заинтересованными. Может быть, самые старые чувствуют то же самое.

Поскольку я испытываю свою гипотезу о чувстве вовлеченности, я должен быть в состоянии подтвердить противоположность вышеприведенной гипотезы с теми же переменными:
1bis. Граждане, которые чувствуют себя менее заинтересованными, не хотят заниматься больше.
2бис. Граждане, которые чувствуют себя менее заинтересованными, менее требовательны к частоте взаимодействия.
3bis. Горожане, менее заинтересованные в этом, менее охотно делятся своим мнением.
4bis. Граждане, чувствуя себя менее заинтересованными, не так легко меняют свое мнение.

Методология:

Поскольку моя методология исследования заключается в сравнении различных тематических исследований, я протестирую модели ранжирования машинного обучения, чтобы классифицировать профили граждан от наименее до наилучшего уровня вовлеченности и вычесть классификацию городов от менее до наиболее привлекательных из уровня вовлеченности своих граждан.

До сих пор я определяю гражданина, активно участвующего в Smart-City, как человека, который:
- имеет чувство вовлеченности не менее 5 из 10
- использует социальные сети и Интернет в качестве источника информации для его мнение
- использует как минимум две социальные сети
- использует как минимум два приложения для обмена сообщениями
- встречается с другими гражданами в Интернете
- скорее делится своим мнением публично (как минимум 3/5 )
- скорее изменит свое мнение в контакте с другими (как минимум 3/5)
- желает привлечь больше
- через несколько каналов взаимодействия (как минимум 2/5)
- от умеренной до высокой частоты (не менее 1 часа в месяц).

Эта комбинация переменных позволяет мне создать новую переменную, чтобы классифицировать высоко вовлеченных граждан из моей общей популяции. Я буду использовать эту классификацию в своих моделях машинного обучения. Это также позволяет мне создавать рейтинг вовлеченности, чтобы ранжировать граждан от самого низкого до самого высокого уровня вовлеченности. Каждое из вышеперечисленных условий принесет гражданину 1 балл, в конце концов, высоко вовлеченные граждане будут иметь оценку 10 из 10.

После проверки точности использования комбинированной переменной для классификации высоко вовлеченных граждан из опросного исследования случайных жителей, я буду использовать выводную статистику, чтобы проверить свою последнюю гипотезу «Мы можем использовать мое определение активно вовлеченного гражданина в Smart -Город, чтобы обнаружить их в случайной популяции жителей ». Этот последний шаг моего исследования будет заключаться в обобщении моих результатов с использованием статистических выводов. Построение выводов для генеральной совокупности на основе выборки обычно заключается в проверке гипотез с использованием вероятностных методов.

Однако проверка гипотез может быть сложной задачей, поскольку метод состоит в написании нулевой гипотезы и ее симметричной противоположности альтернативной гипотезе, чтобы оценить уровень уверенности в том, что та или иная гипотеза будет реализована. В моем случае гипотеза для проверки была бы такой:

  1. ПОЛНАЯ ГИПОТЕЗА: Мы не можем использовать комбинированную переменную активно вовлеченных граждан, чтобы идентифицировать этот класс граждан внутри случайной популяции жителей.
  2. АЛЬТЕРНАТИВНАЯ ГИПОТЕЗА: мы можем использовать комбинированную переменную высоко вовлеченных граждан, чтобы идентифицировать этот класс граждан внутри случайной популяции жителей.

Настройка статистического теста включает в себя несколько субъективных выборов, и их результаты легко неверно истолковать. Более информативный и эффективный подход к сравнению групп основан на оценке, а не на тестировании, и основан на байесовской вероятности, а не на частотном подходе. Вместо того, чтобы проверять, являются ли две группы разными, мы стремимся оценить, насколько они разные.

1. Описательная статистика - распределение и взаимосвязи

Описательная статистика количественно описывает или суммирует характеристики из набора информации. Меры центральной тенденции, такие как среднее значение, медиана и мода, и меры изменчивости, такие как стандартное отклонение, минимальное и максимальное значения переменных, эксцесс и асимметрия, обычно используются для описания набора данных.

Очистка и преобразование данных:

Для дальнейшего анализа потребуется выполнить некоторую очистку и преобразование данных:
- В переменной Engagement_wish есть несколько нулей (4). Я заменю его на "1" означает "Нет" на вопрос "Вы хотите больше заниматься?"
- Есть несколько отклонений в дате рождения (3) и прибытия date (3) в справочном городе. Это было предсказуемо, поскольку некоторые люди не любят делиться этой информацией, а у других возникли трудности в мобильной версии формы Google, чтобы выбрать определенный год в календаре. Я сохраню только даты рождения, которые соответствуют возрасту моих респондентов от 18 до 90 лет.
- Весь мой набор данных состоит из категориальных переменных, записанных как порядковые целые числа. Большинство моделей и алгоритмов машинного обучения работают с числовыми переменными, поэтому, чтобы продолжить вычисления, я сохраню каждую переменную как в ее числовой, так и в категориальной версии.
- Разделить категориальные и числовые в различных подмножествах , чтобы облегчить манипуляции с ним. Также отличите гипотезу от других атрибутов.

1.1 Исследовательский анализ данных

В моем опросе 366 респондентов: по 122 в каждом из трех городов, в которых проводились исследования: Тайбэй (Тайвань), Таллинн (Эстония) и Тель-Авив (Израиль).

Используя функцию description pandas для моей гипотезы, я могу сказать, что:

- Чувство вовлеченности (от 1 до 10) имеет среднее значение 3,61 и стандартное отклонение 2,43. Мой набор данных в целом не вызывает чувства заинтересованности.
- Желание участия (0: Нет, 1: Да) имеет среднее значение 0,77 и стандартное отклонение 0,42. Мой набор данных во всем мире требует большего взаимодействия.
- Частота взаимодействия (от 0: менее одного часа в год до 5: более одного часа в день) имеет среднее значение 2,50 и стандартное отклонение. из 1,14. Мой набор данных во всем мире согласен заниматься от одного часа в месяц (2) до одного часа в неделю (3).
- доля мнений (от 1 до 5) имеет среднее значение 3,21 и стандартное отклонение 1.25. Мой набор данных в целом выражает умеренное мнение, но с искажением вправо.
- Изменение мнения (от 1 до 5) имеет среднее значение 3,06 и стандартное отклонение 0,80. Мой набор данных во всем мире показывает умеренное изменение мнения.
- Мои респонденты - 44% женщин и 56% мужчин во всем мире.
- Моим респондентам за 30, наклон влево, со средним возрастом 36 лет и стандартным отклонением 13 лет.
- Они используют в глобальном масштабе как минимум 3 источника информации для формирования своего мнения со средним значением 3,44 и стандартным отклонением 1,61.
- Они используют не менее двух социальных сетей в мире со средним значением 2,48 и стандартным отклонением 1,30.
- Они используют в глобальном масштабе как минимум 1 приложение для обмена сообщениями со средним значением 1,55 и стандартным отклонением 0,88.
- Во всем мире они соответствуют как минимум 2 мнениям места встреч со средним значением 2,17 и стандартным отклонением 1,25. Но значение режима здесь отличается от среднего: у большинства респондентов оно равно 1. Это означает, что у нас есть разделительный набор данных между встречами с другими мнениями в нескольких местах встреч, в то время как у некоторых из них гораздо больше возможностей встретиться с другими мнениями в других местах встреч.
- Они во всем мире соглашаются взаимодействовать по крайней мере через 2 канала взаимодействия со средним значением 2,37 и стандартным отклонением 1,25.

Используя профилирование pandas по всему набору данных, я могу создавать более глубокие отчеты:

  • Чувство помолвки

  • Общие источники информации

  • Всего соцсетей

  • Всего влиятельных лиц

  • Всего мест для встреч

  • Поделиться мнением

  • Изменение мнения

  • Полная вовлеченность

  • Частота взаимодействия

  • Возраст

  • Продолжительность пребывания

  • Типы агентов

1. 2 Корреляция между переменными

Корреляция данных - это способ понять взаимосвязь между несколькими переменными в вашем наборе данных. Используя корреляционную матрицу, вы можете сначала взглянуть на отношения между переменными вашего набора данных. Я определю, зависят ли один или несколько атрибутов от других или связаны ли одни атрибуты причинно-следственной связью. Существует 3 типа корреляции:
- Положительная корреляция: означает, что если характеристика A увеличивается, то функция B также увеличивается, или если функция A уменьшается, затем параметр B также уменьшается. Оба объекта движутся в тандеме и имеют линейную связь.
- Отрицательная корреляция: означает, что если параметр A увеличивается, то параметр B уменьшается и наоборот.
- Нет корреляции: Нет связи между этими двумя атрибутами.

Коэффициенты корреляции:

- Коэффициент корреляции Пирсона (r) - это мера линейной корреляции между двумя переменными. Его значение находится между -1 и +1, -1 указывает на полную отрицательную линейную корреляцию, 0 указывает на отсутствие линейной корреляции и 1 указывает на полную положительную линейную корреляцию. Кроме того, r инвариантен при отдельных изменениях местоположения и масштаба двух переменных, подразумевая, что для линейной функции угол к оси x не влияет на r. Чтобы вычислить r для двух переменных X и Y, нужно разделить ковариацию X и Y произведением их стандартных отклонений.

- Коэффициент ранговой корреляции Спирмена (ρ) является мерой монотонной корреляции между двумя переменными и, следовательно, лучше улавливает нелинейные монотонные корреляции, чем r . Его значение находится между -1 и +1, -1 указывает на полную отрицательную монотонную корреляцию, 0 указывает на отсутствие монотонной корреляции и 1 указывает на полную положительную монотонную корреляцию. Чтобы вычислить ρ для двух переменных X и Y, нужно разделить ковариацию переменных ранга X и Y на произведение их стандартных отклонений.

- Коэффициент ранговой корреляции Кендалла (τ) измеряет порядковую связь между двумя переменными, аналогично коэффициенту ранговой корреляции Спирмена. Его значение находится в диапазоне от -1 до +1, -1 указывает на полную отрицательную корреляцию, 0 указывает на отсутствие корреляции и 1 указывает на полную положительную корреляцию. Чтобы вычислить τ для двух переменных X и Y, нужно определить количество совпадающих и несовместимых пар наблюдений. τ дается числом согласованных пар минус несогласованные пары, деленное на общее количество пар.

Phik (φk):
Phik (φk) - это новый практичный коэффициент корреляции, который последовательно работает между категориальными, порядковыми и интервальными переменными, фиксирует нелинейную зависимость и возвращается к коэффициенту корреляции Пирсона. в случае двумерного нормального входного распределения. Подробная документация доступна здесь.

V Крамера (φc)
V Крамера - мера ассоциации для номинальных случайных величин. Коэффициент варьируется от 0 до 1, где 0 означает независимость, а 1 - идеальную связь. Доказано, что эмпирические оценки, использованные для V Крамера, смещены даже для больших выборок. Мы используем меру с поправкой на смещение, предложенную Бергсмой в 2013 году, которую можно найти здесь.

Как мы видим, имея много переменных в моем наборе данных, общие матрицы не дают никаких интерпретируемых визуальных эффектов. Я разделю свой набор данных на две части:
- переменные гипотез
- другие атрибуты.

Первый будет визуально интерпретирован, и я также вычислю баллы, представленные выше, чтобы оценить степень взаимосвязи между коррелированными переменными.
Второй вариант не даст более наглядного результата, и я отфильтрую наиболее коррелированные переменные И самые некоррелированные, чтобы получить больше смысла из моего исследования.

Корреляция переменных гипотез:

Корреляция по другим переменным:

Я создал матрицу корреляции на основе коэффициента корреляции Пирсона между всеми переменными, чтобы проверить, может ли какая-то еще промежуточная гипотеза возникнуть из корреляций между атрибутами.

Слишком много переменных для чтения матрицы корреляции, поэтому я отфильтрую те коэффициенты корреляции, которые меня интересуют:
- Коэффициенты больше 0,50 выражают сильно коррелированные переменные.
- Коэффициенты меньше чем 0,001 выражают сильно некоррелированные переменные.

Сильно коррелированные переменные:

Как и в случае переменных гипотез, мне пришлось нормализовать другие переменные атрибутов, чтобы достичь некоторых удовлетворительных коэффициентов корреляции. Переменная, коэффициент корреляции которой выше 0,5, обычно считается сильно коррелированной. Посмотрим, что это такое и какой смысл мы можем извлечь из этого.

  • Отрицательные корреляции:

- Whats’app / Line (-0,59). Это имеет смысл, поскольку я заметил, что в зависимости от города жители предпочтительно использовали одно приложение для обмена сообщениями или другое. Тайвань: Line, Тель-Авив: Whats’App.

  • Положительные корреляции:

- Приложение «Общее вовлечение / голосование» коррелировано (0,51). Это означает, что граждане, открытые для наиболее активного канала взаимодействия, соглашаются использовать приложение «Голосование».
- Общее вовлечение / онлайн-опрос коррелированы (0,53). Это означает, что граждане, открытые для канала наибольшего взаимодействия, соглашаются заполнить онлайн-опрос.
- Общее участие / интервью коррелированы (0,54). Это означает что граждане, открытые для наиболее активного канала, соглашаются давать интервью.
- Общая вовлеченность / семинар коррелированы (0,55). Это означает, что граждане, открытые для наиболее активного канала, соглашаются участвовать в мастерских.
- Общее количество мест встреч / структур стартапов коррелировано (0,56). Это означает, что граждане, встречающиеся с другими гражданами в самых разных местах, также посещают стартап-структуры.
- Общее количество мест встречи / глобальных событий коррелировано (0,59). Это означает, что граждане, встречающиеся с другими гражданами в самых разных местах, также посещают глобальные события.
- Общее количество социальных сетей / Youtube коррелировано (0,56). Это означает, что граждане, использующие самые разные социальные сети, также являются теми, кто использует Youtube.
- Общее количество социальных сетей / Instagram коррелировано (0,59). Это означает, что граждане, использующие самые разные социальные сети, также являются теми, кто пользуется Instagram.
- Total Messaging App / Messenger коррелирован (0,52). Это означает, что граждане, использующие большинство приложений для обмена сообщениями, также используют Messenger.

Сильно некоррелированные переменные:

Переменная, коэффициент корреляции которой меньше 0,001, считается сильно некоррелированной. Это означает, что у них очень низкая вероятность быть в отношениях вместе. Их было довольно много, поэтому, чтобы не быть лишним, я выберу только несколько из них, которые кажутся мне наиболее значимыми.

- Возраст / Приложение для голосования не коррелировано (0,0003). Это означает, что возраст гражданина не имеет отношения к готовности использовать приложение для голосования в качестве канала взаимодействия.
- Snapchat / газеты не коррелированы (0,0005). Это означает, что использование социальной сети Snapchat не связано с использованием газет в качестве источника информации.
- Газеты / правительственное собрание не коррелированы (0,0009). Это означает, что использование Газеты как источника информации не имеет никакого отношения к посещению мест правительственных собраний с целью знакомства с другими гражданами.
- Whats'app / Internet не коррелированы (0,0009)! Это означает, что использование приложения для обмена сообщениями Whats'app не связано с использованием Интернета в качестве источника информации.
- Whats'app / Общее количество мест встречи не коррелированы (0,001) . Это означает, что использование приложения для обмена сообщениями Whats'app не имеет никакого отношения к общему количеству мест встреч, посещенных с целью встретиться с другими гражданами.
- Желание взаимодействия / Влиятельный человек: Индивидуальный гражданин (-0,0008) . Это означает, что высказывание о том, что при формировании своего мнения на него влияют отдельные граждане, не влияет на готовность к большему участию или нет.
- Ощущение вовлеченности / Место встречи: Соседство (-0,0001)! Чувство вовлеченности не имеет никакого отношения к тому, чтобы встречаться с другими гражданами по соседству!

После выбора сильно коррелированных переменных я смог нарисовать новую корреляционную матрицу для коррелированных переменных помимо моей гипотезы.

Эти корреляционные матрицы гораздо более читабельны, но они не достигают какой-либо сильной корреляции между переменными моей гипотезы. Одна из возможностей состоит в том, что столбцы набора данных имеют разные масштабы и содержат несколько выбросов. Две характеристики, которые могут затруднить визуализацию данных и, что более важно, замедлить или даже предотвратить сходимость многих оценок на основе градиента. Это также ухудшает предсказательную производительность многих алгоритмов машинного обучения, которые мы будем использовать позже в этом исследовании. Я произведу некоторое преобразование данных в своих переменных гипотезы и повторно проверим коэффициенты корреляции:
- Нормализовать мои переменные и заново построить матрицу корреляции.
- Разделить мои переменные на три класса: низкий, средний и Высокий и сравните среднее значение переменных гипотез между этими классами.

Что такое нормализация?

Нормализация - это метод масштабирования, при котором значения смещаются и масштабируются так, чтобы в конечном итоге они находились в диапазоне от 0 до 1. Это также известно как масштабирование минимум-максимум.

  • Когда значение X является минимальным значением в столбце, числитель будет 0, и, следовательно, X ’равно 0
  • С другой стороны, когда значение X является максимальным значением в столбце, числитель равен знаменателю, и, таким образом, значение X ’равно 1.
  • Если значение X находится между минимальным и максимальным значением, тогда значение X ’находится между 0 и 1.

Добиваюсь нормализации моих данных, я воспользуюсь утилитой нормализатора из модуля предварительной обработки Scikit Learn.

Нормализация кажется эффективным способом увеличения коэффициента корреляции между переменными. Однако, чтобы подтвердить свою гипотезу другим способом, я попытаюсь поляризовать переменные гипотезы, чтобы получить больше доказательств корреляции.

1.3 Проверка гипотез

Что такое категоризация?

Категоризация - это метод преобразования данных, который будет соответствовать моим данным при создании результирующего набора классов, а также при назначении элементов заранее установленным классам. Это означает, что я разделю свои порядковые числовые переменные на категориальные классы.
Ощущение вовлеченности (от 1 до 10) кодируется как:
- 1, 2, 3: Низкое
- 4, 5, 6, 7: средний
- 8, 9, 10: высокий
Частота взаимодействия кодируется как:
- Менее одного часа в год: низкий
- один час в год: низкий
- один час в месяц: средний
- один час в неделю: высокий
- один час в день: высокий
Распространение мнения (от 1 до 5) кодируется как:
- 1, 2: Низкое
- 3: Среднее
- 4, 5: Высокое
Изменение мнения (от 1 до 5) кодируется как:
- 1, 2: Низкое
- 3: Среднее
- 4, 5: Высокое
Возраст (от 18 до 84) кодируется десятилетиями:
- 20, 30: самый молодой
- 40, 50: средний
- 60, 70, 80-е годы: самый старый
Пребывание (от 0 до 61) кодируется отрезками по 5 лет:
- Менее 1,5, 10 лет: самый короткий
- Менее 15, 20, 25, 30, 35, 40, 45 лет: средней длины < br /> - Менее 50, 55, 60, 65 лет: самое продолжительное
желание помолвки (да / нет),
Пол (мужчина / женщина) хранятся в первозданном виде.

После категоризации переменных моей гипотезы и вычисления среднего значения для предположительно зависящей числовой переменной я получаю гораздо более интересные ответы на свою гипотезу, исходя из однозначных соотношений.

  • Гипотеза 1:

Гипотеза 1: ПОДТВЕРЖДЕНО! Граждане, которые чувствуют себя наиболее заинтересованными, хотят больше заниматься. / 1bis: Граждане, которые хотят больше взаимодействовать, испытывают наивысшее чувство вовлеченности.

  • Гипотеза 2:

Гипотеза 2: ПОДТВЕРЖДЕНО! Граждане, которые чувствуют себя наиболее заинтересованными, являются наиболее требовательными к частоте взаимодействия. / 2bis. Граждане, требующие максимальной частоты взаимодействия, - это те, кто чувствует себя наиболее заинтересованными. Однако категориальные средние значения - это те, которые вызывают наименьшее чувство вовлеченности.
= ›Если люди, желающие участвовать на среднем уровне, испытывают наименьшее чувство вовлеченности, это может быть связано с тем, что последние неэффективно вовлечены? Самые требовательные / самые требовательные люди уже чувствуют себя вовлеченными, и некоторые думают, что им следует вовлекать больше, другие думают, что им следует вовлекаться меньше…
= ›Может подтверждаться желанием вовлечения: имеют ли пользователи с низким уровнем вовлеченности самый высокий балл« НЕТ »и самый низкий балл« ДА »для желание помолвки?

  • Гипотеза 3:

Гипотеза 3: ПОДТВЕРЖДЕНО! Граждане, которые чувствуют себя наиболее заинтересованными, легче делятся своим мнением на публике. / 3bis. Граждане, которые делятся своим мнением публично, легче чувствуют себя более заинтересованными. Поскольку эта пара переменных имеет наилучшую корреляцию, я добавил к своей оценке несколько показателей.

  • Гипотеза 4:

Гипотеза 4: ПОДТВЕРЖДЕНО! Граждане, которые чувствуют себя наиболее заинтересованными, склонны менять свое мнение в контакте с другими. / 4bis. Граждане, чувствуя себя менее заинтересованными, не так легко меняют свое мнение. Если изменение мнения напрямую не нравится чувству вовлеченности, оно напрямую нравится выражению мнения и, таким образом, косвенно - чувству вовлеченности. Таким образом подтверждается гипотеза 4 и 4bis.

  • Гипотеза 5:

Гипотеза 5: ПОДТВЕРЖДЕНО! Пол не имеет отношения к чувству помолвки.

  • Гипотеза 6:

Гипотеза 6: НЕПРОВЕРКА. Возраст имеет отрицательную корреляцию с чувством вовлеченности, это означает, что более молодые граждане чувствуют себя менее вовлеченными.

Продолжительность пребывания соответствует той же тенденции, что и возраст, в ее соотношении с чувством вовлеченности?

Имеет ли отношение энтузиазм приложения для голосования к возрасту?

Я решил не углубляться в корреляцию негипотезных переменных, чтобы избежать избыточности. У нас уже есть достаточно информации из нашего набора данных опроса, с которой можно работать. Следующим шагом будет построение моих моделей машинного обучения, и для этого потребуется выбор функций, поскольку использование всех переменных в одной модели может повлиять на ее производительность.

2. Машинное обучение - классификация моделей.

Машинное обучение - это изучение компьютерных алгоритмов, которые автоматически улучшаются по мере накопления опыта. Алгоритмы машинного обучения создают модель на основе выборочных данных, чтобы делать прогнозы, не будучи явно запрограммированными на это. Модели машинного обучения обрабатывают статистический регрессионный анализ при прогнозировании числового значения и статистическую классификацию при прогнозировании метки класса.

Моя конечная цель - построить модель ранжирования, способную предсказать, насколько сильно гражданин принимает решения для своего города или нет. До сих пор я определяю гражданина, активно участвующего в Smart-City, как человека, который:
- имеет чувство вовлеченности не менее 5 из 10
- использует социальные сети и Интернет в качестве источника информации для его мнение
- использует как минимум две социальные сети
- использует как минимум два приложения для обмена сообщениями
- встречается с другими гражданами в Интернете
- скорее делится своим мнением публично (как минимум 3/5 )
- скорее изменит свое мнение в контакте с другими (как минимум 3/5)
- желает привлечь больше
- через несколько каналов взаимодействия (как минимум 2/5)
- от умеренной до высокой частоты (не менее 1 часа в месяц).

Используя свое определение очень заинтересованного гражданина, я обнаружил, что у меня было 16 респондентов, которые соответствовали 366 критериям. Это означает, что 350 респондентов из 366 - нет. Я также могу сказать, что высоко вовлеченные граждане составляют 4,4% моей выборки, взятой случайным образом в трех типичных городах из умных городов по всему миру.

2.1 Разработка функций

Выбор функций - это процесс выбора подмножества соответствующих функций для использования при построении модели. Функции данных, которые вы используете для обучения своих моделей машинного обучения, имеют огромное влияние на производительность, которой вы можете достичь. Нерелевантные или частично релевантные функции могут отрицательно повлиять на производительность модели.
Есть ряд причин, по которым вы можете захотеть удалить функцию из фазы обучения. Это включает:

  • Функция, которая сильно коррелирует с другой функцией в наборе данных. Если это так, то обе функции, по сути, предоставляют одинаковую информацию. Некоторые алгоритмы чувствительны к коррелированным функциям.
  • Функции, которые не предоставляют практически никакой информации. Примером может служить функция, в которой большинство примеров имеют одинаковое значение.
  • Функции, которые практически не имеют статистической связи с целевой переменной.

Выбор характеристик - это процесс, при котором вы автоматически выбираете те функции в ваших данных, которые больше всего влияют на переменную прогноза или выходные данные, которые вас интересуют. Он просит меня определить оси X-y, которые вы будете использовать в моих моделях машинного обучения. Поскольку моя конечная цель - выявить активно вовлеченных граждан из комбинации вопросов, на которые дано ответное исследование, я создаю логическое поле под названием «Высокая вовлеченность» для комбинации этих атрибутов, где 0 означает: «Нет», а 1 означает «Да». . Это новое поле будет осью Y моей модели, а другие переменные - осью X.

Оптимальное количество функций:

Используя RFECV в сочетании со StratifiedKfold на модели RamdomForestClassifier, я обнаружил, что оптимальное количество функций для моих моделей должно быть 3.
На следующем графике мы можем проверить производительность модели классификации в зависимости от количества функций. выбрано. Видно, что с тремя характеристиками точность составила около 97%, что вполне удовлетворительно.

Оценка важности функций:

После того, как мы обучили модель, можно применить дальнейший статистический анализ, чтобы понять, какое влияние функции оказывают на выходные данные модели, и на основании этого определить, какие функции наиболее полезны.

Используя ту же классификационную модель RandomForestClassifier, что и инструктор, я оцениваю важность функций при классификации высоко вовлеченных граждан от других.

Это дает хороший индикатор тех функций, которые влияют на модель, и тех, которые не влияют. Мы можем удалить некоторые из менее важных функций после анализа этой диаграммы. Поскольку результаты первого показались довольно неожиданными с первого взгляда, я решил попробовать два других рейтинга моделей ExtraTreesClassifier и DecisionTreeClassifier и ограничить свой запрос 10 наиболее важными.

Эти два дополнительных рейтинга подтверждают первый: самые важные переменные для достижения максимальной производительности с моими моделями классификации не являются моей гипотезой. Каким-то образом это имеет смысл, поскольку мы уже видели, что сильно коррелированные переменные снижают производительность машинного обучения, и что две коррелированные переменные имеют тенденцию дважды выражать одну и ту же идею. В целом, я могу сказать, что:
- Чувство вовлеченности
- Всего источников
- Приложение Total Messaging
- три наиболее важные функции для моего классифицирующая модель.

Как справиться с несбалансированностью данных:

Распределение активно вовлеченных граждан (16) по сравнению с остальными (350) очень несбалансированное. Чтобы обучить лучшие модели машинного обучения для достижения моей цели, мне нужно будет использовать метод передискретизации, чтобы сбалансировать мой набор данных.

Балансировка набора данных с помощью SMOTE (Техника избыточной выборки синтетического меньшинства) - это тип увеличения данных, при котором новые образцы синтезируются из существующих. Я воспользуюсь этим, чтобы перевыполнить выборку класса меньшинства. SMOTE не является простым дублированием класса меньшинства: он фактически создает новые выборки между ближайшими точками класса меньшинства с помощью алгоритма K-ближайшего соседа. При таком подходе он может создавать столько синтетических выборок, сколько необходимо, добавляя новую релевантную информацию в набор данных.

В результате у нас будет новый набор данных из 700 респондентов, из которых 350 респондентов высоко вовлечены, а 350 респондентов нет.

Разделение для обучения и тестирования. Поскольку мой набор данных теперь сбалансирован, я разделю его на две части: разделение на 1/3, называемое «набором поездов», которое я буду использовать для обучения своих моделей, пока не достигну удовлетворительного оценка точности и разделение 2/3, называемое «тестовым набором», на котором я разверну обученную модель.

2.2 Тестирование четырех моделей

Целью конвейера машинного обучения является сборка нескольких шагов, которые могут быть перекрестно проверены вместе при установке различных параметров. Я могу охватить весь процесс анализа данных с самого начала: сбор данных путем очистки веб-контента до окончательной проверки прогнозов. На данный момент я не работал над автоматизацией всего процесса, но сейчас я построю основную часть конвейера, которую я смогу завершить позже.

Мой конвейер будет заключаться в обработке моего набора данных с помощью различных моделей машинного обучения и сравнении точности и оценки путаницы, чтобы выбрать лучшую модель. Он будет состоять из следующих этапов:
- стандартное масштабирование
- извлечение признаков
- обработка модели
- оценки точности
- матрица неточностей

Доступно множество алгоритмов классификации, и невозможно сказать, лучше ли один из них. Каждая производительность зависит от самих данных и подготовительных шагов, производительность модели должна оцениваться в каждом конкретном случае. Я решил использовать четыре модели классификатора и сравнить их точность.
- Логистическая регрессия
- K-ближайшие соседи
- Многослойный персептрон
- Поддержка векторных машин

Логистическая регрессия

Это один из самых фундаментальных алгоритмов, используемых для моделирования отношений между зависимой переменной и одной или несколькими независимыми переменными. Подобно модели линейной регрессии, но используется для дискретного числа результатов, логистическая регрессия использует логистическую функцию для моделирования двоичной зависимой переменной.

K-Ближайшие соседи

В статистической классификации алгоритм KNN используется для классификации объекта множеством голосов его соседей, при этом объект назначается классу, наиболее распространенному среди его k ближайших соседей. k - целое положительное число, обычно небольшое. k -NN - это тип обучения на основе экземпляров, при котором функция аппроксимируется локально, а алгоритм основывается на расстоянии для классификации.

Многослойный персептрон

MLPClassifier - это модель искусственной нейронной сети, которая оптимизирует функцию потери журнала. В качестве ИНС он использует набор подключенных устройств ввода / вывода, где каждому соединению присвоен вес. На этапе обучения сеть обучается, регулируя веса , чтобы иметь возможность предсказать правильную метку класса входных данных.

Машины опорных векторов

Машина опорных векторов - это метод контролируемой классификации, который обнаруживает гиперплоскость или границу между двумя классами данных, которая максимизирует разницу между два класса. Есть много плоскостей, которые могут разделять два класса, но только одна плоскость может максимизировать запас или расстояние между классами.

На следующих тепловых картах показаны матрицы недоразумений, полученные с помощью наших прогнозных моделей.

Машинное обучение - это числовые прогнозы, и им нечего показать, кроме матриц путаницы. Лучший способ оценить производительность наших моделей - это посмотреть и оценить разные показатели точности.

2.3 Оценка точности

Точность классификации - это то, что мы обычно подразумеваем, когда используем термин "точность". Вероятно, самый простой и интуитивно понятный показатель производительности классификатора. Это отношение количества правильных прогнозов к общему количеству входных выборок. Он работает хорошо, только если есть равное количество образцов, принадлежащих каждому классу.

Оценка F1 - это среднее гармоническое значение между точностью и отзывчивостью. Диапазон оценки F1 составляет [0, 1]. Он сообщает вам, насколько точен ваш классификатор (сколько экземпляров он классифицирует правильно), а также насколько он надежен (он не пропускает значительное количество экземпляров).

Площадь под кривой (AUC) - один из наиболее широко используемых показателей для оценки. Он используется для задачи двоичной классификации. AUC классификатора равна вероятности того, что классификатор оценит случайно выбранный положительный пример выше, чем случайно выбранный отрицательный пример.

Отзыв - это количество правильных положительных результатов, разделенное на количество всех соответствующих образцов (всех образцов, которые должны были быть определены как положительные), которые означает процент действительно положительных примеров, которые были отнесены к таковым.

Точность - это количество правильных положительных результатов, деленное на количество положительных результатов, предсказанных классификатором, что означает процент действительно положительных классификаций.

Средняя абсолютная ошибка (MAE) - это среднее значение разницы между исходными и прогнозируемыми значениями. Это дает нам меру того, насколько далеко прогнозы были от фактического результата.

Среднеквадратичная ошибка (MSE) очень похожа на среднюю абсолютную ошибку, с той лишь разницей, что MSE берет среднее значение квадрата разницы между исходными значениями и прогнозируемыми. ценности. Преимущество MSE в том, что градиент легче вычислить.

Среднеквадратичная ошибка (RMSE) более подходит для представления производительности модели, чем MAE, когда ожидается, что распределение ошибок будет гауссовым. Это позволяет избежать использования абсолютного значения, что крайне нежелательно во многих математических вычислениях.

R-квадрат (r2) - это процент вариации переменной ответа, который объясняется линейной моделью. Максимальное значение R² равно 1, но оно может принимать отрицательное значение.

Коэффициент инфляции дисперсии (VIF) - это мера степени мультиколлинеарности в наборе нескольких переменных регрессии. Он рассчитывается для каждой независимой переменной. Высокий VIF указывает на то, что соответствующая независимая переменная сильно коллинеарна другим переменным в модели.

В целом, похоже, что модель искусственной нейронной сети Multi-Layer Perceptron достигла лучших результатов по всем показателям точности и имеет самый низкий уровень ошибок (MAE, MSE). Однако VIF для этой модели больше 5, это означает, что моя модель также имеет самый высокий уровень мультиколлинеарности.

Я буду продолжать работать с этим, пытаясь найти способ сделать его предсказательную работу еще лучше.

Машинное обучение отлично работает. Но после прохождения этого рабочего процесса и с учетом того, что результаты модели выглядят разумными, у меня возникло ощущение, что чего-то не хватало, чтобы ответить на мою проблему. Как вы могли заметить, одним серьезным недостатком является учет достоверности модели и уверенности в результатах.

3. Статистические выводы - обобщение модели ранжирования.

Логическая статистика использует данные, чтобы узнать о населении, которое, как предполагается, представляет выборка данных, в моем случае - это активно вовлеченные граждане умного города. С помощью статистических выводов можно прийти к выводам, выходящим за рамки фактического набора данных.

Если модели машинного обучения используются для прогнозирования внутри набора данных, вероятностные модели используются для прогнозирования обширных данных, используя вероятность наступления события и статистическую проверку гипотез.

В этой третьей части моего исследования я буду использовать вероятностные модели и дисперсионный анализ ANOVA, чтобы наиболее точным образом сформулировать свои прогнозы для высоко вовлеченных граждан. Какой бы уровень предположения ни был сделан, правильно откалиброванный вывод в целом требует, чтобы некоторые предположения были верными. Сначала я их представлю, а затем смогу сравнить свои фактические результаты с прогнозируемыми. Если оба они очень близки, мои выводы будут правильными, и я смогу проверить свою модель ранжирования в более широком масштабе.

3.1 Вероятностная модель:

Оценка вероятностей с помощью вероятностной модели состоит в том, чтобы сформулировать мою проблему следующим образом: я исследую жителей города в поисках активно вовлеченных граждан. Я знаю, что все население города можно разделить на высоко вовлеченных и не очень вовлеченных граждан, но я не знаю, сколько из них каждого. Проведя исследование случайной выборки населения, я обнаружил, что активно вовлеченные граждане составляют примерно 4,4% от всего моего набора данных (16 из 366 респондентов). Предполагая, что этот класс граждан имел равные шансы появиться в моей выборке, я хочу оценить их распространенность среди всего населения в умных городах.

У меня возникают как минимум два вопроса:
- Как я могу быть уверен, что моя выборка репрезентативна для всего населения? Мне нужно включить неопределенность в свою оценку, учитывая ограниченность данных.
-Как я могу включить в эту оценку предыдущие представления об очень активных гражданах?

Метод логической статистики, называемый байесовским выводом, позволяет выразить неопределенность и предшествующие убеждения.
Чтобы решить эту проблему с помощью байесовской модели, мне нужно будет предположить, что:
- Шансы охватить очень заинтересованного гражданина не зависят друг от друга. (Я не распространяю свой опрос на какую-то нишу заинтересованных граждан)
- Любой гражданин потенциально может быть очень заинтересован и соответствовать моему определению. (Нет никакого предубеждения, которое могло бы закрепить этот класс за нишевой популяцией)

Поскольку мое население можно разделить на два класса граждан: высоко вовлеченных и не вовлеченных, распределение вероятностей для всех ситуаций соответствует биномиальной модели распределения. В теории вероятностей биномиальное распределение с параметрами n и p - это дискретное распределение вероятностей количества успехов в последовательности из n независимых эксперименты, каждый из которых задает вопрос типа «да-нет», и каждый из них имеет собственный логический результат: успех (с вероятностью p) и неудача (с вероятностью q = 1-p). В моей задаче p является конечной целью: я хочу вычислить вероятность встречи с высоко заинтересованными гражданами всего «умного города» на основе наблюдаемых выборочных данных. В статистике один успешный / неудачный эксперимент берется из распределения Бернулли, которое формирует предварительное распределение для выборки размера n, взятой с заменой из генеральной совокупности размера N. .

Мое выборочное распределение помогает оценить статистику населения. Интересующая меня общая система, в которой население может быть разделено на 2 дискретных класса (высоко вовлеченные и не очень вовлеченные граждане) и 366 независимых респондентов, имеет функцию массы вероятности, показанную на биномиальном распределении ниже:

Центральная предельная теорема утверждает, что независимо от формы распределения населения, форма распределения выборки останется неизменной. Это дает нам математическое преимущество для оценки статистики населения. Количество образцов должно быть достаточным (обычно более 50) для удовлетворительного достижения нормального распределения кривой. Кроме того, необходимо следить за тем, чтобы размер выборки оставался фиксированным, поскольку любое изменение размера выборки изменит форму распределения выборки, и оно больше не будет иметь форму колокола. По мере увеличения размера выборки распределение выборки сжимается с обеих сторон, что дает нам лучшую оценку статистики генеральной совокупности, поскольку она находится где-то посередине выборочного распределения (обычно).

Что касается моего исследования, доля 4,4% процентов высоко вовлеченных граждан по случайной выборке из городского населения уже является средним значением, полученным на основе моих трех тематических исследований. Центральная предельная теорема позволяет мне предположить, что если бы я исследовал 100 умных городов мира с одним и тем же протоколом сбора данных, окончательное среднее значение доли высоко вовлеченных граждан осталось бы около 4,4%.

При нормальном распределении средние значения доли высоко вовлеченных граждан в популяциях умных городов укладываются в доверительный интервал, который будет определен с помощью нашей проверки гипотез.

3.2 Проверка гипотез

Проверка гипотез - это все, что касается обоснованности утверждений на основе выборки. С появлением принятия решений на основе данных в бизнесе, науке, технологиях, социальной и политической сферах концепция проверки гипотез стала критически важной для понимания и применения. Этот метод позволяет сравнивать статистику выборки со статистикой генеральной совокупности.

Проверка гипотез определяется двумя терминами: нулевая гипотеза и альтернативная гипотеза. Нулевая гипотеза обычно утверждает, что вывод неверен, Альтернативная гипотеза утверждает прямо противоположное. В моем случае:
- Нулевая гипотеза: я не могу использовать переменную высокой вовлеченности для ранжирования вовлеченности граждан в Smart-City, потому что у случайно выбранных граждан в Smart-City нет 4, 4% -ные шансы быть активными.
- Альтернативная гипотеза: я могу использовать переменную высокой вовлеченности для ранжирования вовлеченности граждан в Smart-City, потому что у случайно выбранных граждан в Smart-City действительно есть 4 , 4% шансов быть активным.

Предполагается, что нулевая гипотеза верна, и требуется статистическое свидетельство, чтобы отвергнуть ее в пользу альтернативной гипотезы. На самом деле, я спрашиваю, насколько я уверен в том, что моя модель ранжирования верна?
Другими словами, я хочу ответить на вопрос: «Каковы шансы любой случайной выборки жителей в любом умном городе мира достичь 4,4% высоко вовлеченных граждан?»

Этот шанс представлен p-значением (или значением вероятности), и это то, что я хочу оценить. Если это p-значение меньше заранее определенного критического значения, обычно на уровне значимости α = 0,05, я получил свидетельство того, что альтернативная гипотеза, вероятно, верна; тогда я могу отвергнуть нулевую гипотезу и принять альтернативную гипотезу.

Моя проблема заключается в том, что я не знаю реальную долю активно вовлеченных граждан во всем населении умных городов по всему миру, поэтому я не могу сравнить свой прогноз с реальностью.
Когда параметры генеральной совокупности (среднее и стандартное отклонение) неизвестны, лучшее, что я могу сделать, - это оценить их по моим выборкам. Есть ли существенная разница в доле активных жителей между городами?

Состав данных:
Общая доля высоко вовлеченных граждан составляет 4,37%.
В Тайбэе 6,55% активно вовлеченных граждан,
Таллинн - 4, 92% высокоактивных граждан,
В Тель-Авиве 1,64% активно вовлеченных граждан.

Статистический тест:

Дисперсионный анализ или тест ANOVA - это способ выяснить, являются ли результаты опроса или эксперимента значимыми, если вы хотите сравнить более двух групп одновременно. Другими словами, тест ANOVA помогает вам выяснить, нужно ли вам отклонить нулевую гипотезу или принять альтернативную гипотезу на основе результатов, полученных из разных независимых выборок. По сути, он показывает, являются ли две или более группы похожими или разными, на основе их среднего сходства и f-балла.

Выполнить F-тест довольно просто: вы просто разделяете дисперсии и сравниваете свой ответ с критическим значением, полученным из таблицы. Главное отметить, что значение должно быть больше единицы, поэтому мы помещаем большее значение в верхнюю часть деления.

ИНТЕРПРЕТАЦИЯ:
Цель этой статистики - проверить разницу между долей вовлеченных граждан между городами. Проведя однофакторный дисперсионный анализ с использованием библиотеки SciPy, я обнаружил, что F-статистика = 1,83 и значение p = 0,16. Учитывая обычный уровень значимости 0,05, я не могу найти достаточно доказательств, чтобы отвергнуть нулевую гипотезу. Между моими образцами есть статистически значимая разница.

Однако эти статистически незначимые результаты не являются завершением моего исследования. Мы можем думать о нарушениях в процессе сбора данных, которые привели к ложному дисбалансу целевой группы. Я особенно думаю о том, что я собрал свои ответы на опрос в Тель-Авиве во время первой пандемии Covid-19. Эта беспрецедентная ситуация затронула множество людей, особенно в средиземноморском городе, образ жизни которого сводится к активному отдыху, общению и ночной жизни. Меры изоляции могли существенно повлиять на то, как люди воспринимают чувство вовлеченности, и на другие коррелированные переменные, такие как общее количество мест для встреч или легкость выражения своего мнения публично. Это, безусловно, может повлиять на конечный результат высоко вовлеченных граждан.

Между прочим, есть еще кое-какие возможности для маневра, чтобы закончить отказ от нулевой гипотезы аналогичного жанра. Первый способ, о котором я думаю, - это пересмотреть мое определение высоко заинтересованного гражданина, чтобы добиться меньшего дисбаланса между тремя моими тематическими исследованиями. Другой вариант - собрать больше тематических исследований по другим городам или, возможно, больше респондентов по моим текущим тематическим исследованиям, чтобы варьировать размер выборки. Я мог бы также переформулировать мою нулевую гипотезу и, возможно, подумать о другом статистическом тесте, который я мог бы провести на своей гипотезе, чтобы проверить.

Заключение :

Модели - это приближения сложной динамики, которая движет наблюдаемыми явлениями в окружающем нас мире. Они обеспечивают среду, в которой мы можем формализовать обучение и принятие решений, и, следовательно, являются основополагающим аспектом любого тщательного анализа.

В этом исследовании я использовал 366 ответов жителей 3 разных умных городов мира: Тайбэя (Тайвань), Тель-Авива (Израиль) и Таллинна (Эстония).
Сначала мне пришлось очистить и преобразовать данные, чтобы сделать их легко интерпретируемыми, и провести различные вычисления их потенциальных взаимосвязей. Я смог выявить много корреляций между переменными моей гипотезы, например, связь между чувством вовлеченности и желанием и частотой прекращения взаимодействия. Я также продемонстрировал сходство между способностью делиться своим мнением публично и способностью изменять свое мнение при контакте с другими, оба связаны с уровнем вовлеченности, что привело к выводу, что чем больше людей чувствуют себя вовлеченными, тем больше они вовлекаются. в своем городе, связавшись с большинством сверстников. Я также сломал некоторые предвзятые мнения, например, о возрасте, показав, что молодые граждане чувствуют себя более заинтересованными, чем пожилые, и что возраст не влияет на открытость приложений для голосования как канала взаимодействия с гражданами. Еще более удивительно для меня: чувство вовлеченности не связано со способностью встречаться со сверстниками по соседству, что многое говорит о большинстве методов участия, которые имеют тенденцию продвигать группы личных встреч, а не онлайн.

Выявив доказательства наличия коррелированных переменных, я создал комбинированные переменные, соответствующие определению активно вовлеченного гражданина в умном городе. Методика исключения рекурсивных функций позволила мне выбрать лучшие функции для представления моих переменных в модели, избегая при этом избыточности между связанными переменными. Я обнаружил, что чувство вовлеченности, общие источники информации для формирования мнения и общие приложения для обмена сообщениями, используемые для общения с коллегами, являются тремя наиболее важными переменными, позволяющими лучше всего уловить репрезентативность активно вовлеченного населения. Эта информация использовалась для четырех классификационных моделей машинного обучения: логистической регрессии, K-ближайших соседей, многослойного персептрона и опорных векторных машин. Эти четыре модели использовались для прогнозирования результатов 2/3 случайной выборки из моих данных после обучения на 1/3. Три прогностические модели из четырех достигают удовлетворительной оценки точности, но лучшей из них является Multi-Layer Perceptron, искусственная нейронная сеть, используемая для классификации точек данных.

Тем не менее, эти замечательные результаты в автоматизации обучения позволяют расположить моих граждан между высоко вовлеченными и теми, кого не нужно оценивать в более широком масштабе. В третьей части я использовал методы логической статистики, чтобы проверить обобщаемость моего предположения: мое определение высоко вовлеченных граждан позволяет мне классифицировать все население умного города во всем мире. Чтобы проверить эту последнюю гипотезу, я провел дисперсионный анализ ANOVA на трех моих тематических исследованиях. Наконец, выясняется, что дисбаланс в распределении высоко вовлеченных граждан между моими тремя городами, изучаемыми мной, не позволяет мне статистически подтвердить модель ранжирования. Мне придется провести еще один анализ, чтобы подтвердить свой вывод.

Об авторе :

Я начал свою карьеру в качестве независимого застройщика в Перпиньяне, на юге Франции (2009–2017 гг.), Прежде чем перейти к городским инновациям с особым интересом к новым бизнес-моделям и социальным инновациям в городах. Мой первый стартап OpenPI (2014) был посвящен распространению ценностей и процессов с открытым исходным кодом в области городского развития, чтобы собрать соседей для принятия решений по местному городскому планированию.

В 2018 году я защитил кандидатскую диссертацию на тему «Взаимодействие с заинтересованными сторонами в умных городах», чтобы оценить свой опыт в этой области в качестве академического звания, и использовал это время, чтобы повысить свои навыки в области науки о данных, расширить международную сеть и получить более широкий кругозор. мой рынок.

Библиографические ссылки: