В этом исследовании рассматривается концепция мобильности в контексте больших данных и ее философские последствия. Рост больших данных позволил использовать новые формы анализа и создания знаний, что можно рассматривать как эволюционный процесс. Данные аналогичны людям и имеют как естественную, так и социальную части, а социальная часть данных отражает сложные процессы, посредством которых они создаются, собираются и анализируются. В этом исследовании рассматриваются три различных взгляда на данные — интраданные, интерданные и внешние данные — и то, как они способствуют пониманию данных и работе с ними. Intradata фокусируется на особенностях больших данных, а Interdata уделяет особое внимание различным подходам к анализу и интерпретации данных. Outerdata подчеркивает социальный аспект данных и выступает за свободу данных. Понимая эти различные точки зрения, мы можем работать с данными более эффективно и этично, используя весь их потенциал на благо общества.

Ключевые слова: большие данные, открытые данные, персонификация, анализ данных, машинное обучение.

Введение

Концепция мобильности важна, поскольку движение относится к изменению положения или местоположения объекта с течением времени. Живые существа обычно обладают способностью двигаться, тогда как неживые существа - нет. Эта связь между жизнью и движением исследует взаимосвязь между самодвижением и способностью трансформироваться или изменяться, которые являются важнейшими характеристиками живых существ. В мире больших данных экспоненциальный рост информации делает возможным ранее невозможные формы анализа и создания знаний, что приводит к качественному преобразованию и формированию «живой» формы данных (Китчин и МакАрдл, 2016). Однако философские последствия этого расширения сложны и все еще обсуждаются. Данные состоят как из природных, так и из социальных элементов (Kitchin, 2014), причем последние отражают сложности их создания, сбора и анализа, такие как политические и экономические структуры, социальные нормы и ценности, а также человеческие предубеждения и предрассудки. Эти социальные факторы могут привести к ошибкам и предвзятости, но они также предоставляют возможности для критического анализа и изучения социальных и политических аспектов науки и техники.

В этом эссе исследуются три перспективы данных — интраданные, интерданные и внешние данные — и то, как они способствуют пониманию данных и работе с ними, подчеркивая важность понимания характеристик больших данных, объединения подходов для их полного анализа и пропагандируя свободу данных для полной реализации. потенциал, признавая при этом препятствия на пути усыновления.

[INTRADATA] «Большие данные» — живой предмет

Данные, выходящие за рамки числовых значений

Данные — это мощный инструмент, который изменил то, как мы воспринимаем окружающий мир и взаимодействуем с ним. Он включает в себя широкий спектр информации, помимо чисел, например текстовые данные, изображения и видеоданные, а также большие данные (Kitchin, 2014). Понимание различных типов данных позволяет исследователям и аналитикам принимать обоснованные решения о том, как обрабатывать и использовать данные для исследований и анализа. Методы обработки естественного языка можно использовать для анализа текстовых данных, обеспечивая понимание общественного мнения, поведения потребителей и академических тенденций. Данные изображений и видео требуют использования специализированных методов для получения информации, которая поможет исследователям и аналитикам понять закономерности и поведение. Большие данные слишком сложны для их обработки с использованием традиционных методов обработки данных, что требует использования специализированных инструментов и инфраструктуры для их хранения и обработки, что позволяет исследователям и аналитикам извлекать ранее недостижимую информацию. Развивающаяся концепция данных открывает захватывающие возможности для исследований и анализа, что приводит к улучшению понимания мира вокруг нас.

Динамические характеристики «живых» больших данных

Большие данные изменили процесс сбора, обработки и анализа данных, ставя перед предприятиями, правительствами и частными лицами уникальные задачи и возможности. Характеристики больших данных можно разделить на статические и динамические. Статические характеристики больших данных, такие как объем, разнообразие и полнота, неизменны. С другой стороны, динамические характеристики больших данных, такие как скорость, достоверность, изменчивость, сложность и реляционность, постоянно меняются и требуют постоянного анализа и обновлений (Китчин и МакАрдл, 2016). Динамические характеристики отражают живую природу огромных объемов данных, что отражает динамическую природу мира и его систем. Однако большие данные — это не живой организм, а скорее технологическая конструкция, отражающая сложность и динамизм мира. Взаимосвязь различных аспектов мира подчеркивает реляционную природу больших данных.

[INTERDATA] «Большие данные» сложны, как и люди

Появление «больших данных»

Визуализация данных — мощный инструмент для анализа и представления сложных наборов данных в понятной и интерпретируемой форме (Ольшанникова и др., 2016). Однако очень важно понимать, что визуализация данных оценивает только внешний вид «больших данных», а не их основную природу. Это достигается за счет использования ряда визуальных методов, включая интерактивные карты, диаграммы, инфографику, тепловые карты и интерактивные информационные панели, и это лишь некоторые из них. Эти методы помогают представить данные и выявить закономерности и тенденции, которые могут быть не сразу очевидны из необработанных данных. Интерактивные карты, например, особенно полезны для пространственных данных, таких как демографическая информация, факторы окружающей среды и экономические показатели. Легче выявить региональные закономерности и тенденции, если эти данные представлены в географическом контексте. Диаграммы также можно использовать для сравнения данных по категориям, отображения тенденций с течением времени или отображения взаимосвязей между переменными. Инфографика — еще один полезный инструмент для упрощения и использования сложных наборов данных.

Визуализация данных — это мощный инструмент, который может помочь нам разобраться в сложной информации, представляя ее в легком для понимания визуальном формате. Используя элементы дизайна, такие как значки, графика и текст, визуализация данных может преобразовать большие объемы информации в формат, который одновременно визуально привлекателен и информативен. Однако важно помнить, что визуализация данных оценивает только внешний вид данных, а не их основную природу (Azzam et al., 2013). Хотя это может помочь нам выявить закономерности и тенденции в данных, оно не может сказать нам, почему эти закономерности и тенденции существуют. Именно здесь на помощь приходят методы статистического анализа и машинного обучения. Используя эти инструменты, мы можем сделать вывод о природе данных на основе естественных и социальных законов и получить более глубокое понимание закономерностей и тенденций, которые мы наблюдаем в наших визуализациях. Поэтому, хотя визуализация данных является важным инструментом для передачи сложной информации, она всегда должна сопровождаться тщательным анализом, чтобы гарантировать точность и обоснованность наших интерпретаций.

Гипотеза о «больших данных»

В эпоху больших данных традиционные статистические методы, основанные на распределениях вероятностей, приобрели все большее значение для понимания и анализа огромных объемов информации. Эти методы обеспечивают основу для понимания сложных наборов данных путем выявления закономерностей и тенденций в них. Регрессионный, модерационный и посреднический анализы являются частыми статистическими методами анализа больших наборов данных (Rialti et al., 2019). Анализ временных рядов можно использовать для выявления тенденций и закономерностей с течением времени (Xu et al., 2016), тогда как пространственный анализ можно использовать для анализа данных, связанных с географическими местоположениями (Oatley, 2022). Возможность управлять большими наборами данных разного размера является одним из основных преимуществ традиционных статистических методов. Они могут обнаруживать закономерности и взаимосвязи в данных, которые могут быть неочевидны сразу, что приводит к более обоснованным решениям и более точным прогнозам. Они основаны на надежных статистических принципах и обеспечивают основу для анализа данных на основе объективных критериев, а не субъективных интерпретаций, что приводит к более надежным и точным выводам (Линдли, 2000).

Эти методы предполагают разработку гипотез, основанных на естественных и социальных законах, которые затем проверяются с помощью математических моделей. Тем не менее, несмотря на свою полезность, эти методы имеют ограничения. Существенным недостатком является тот факт, что они в значительной степени полагаются на предположения, сделанные с человеческой точки зрения на большие данные, которые в конечном итоге являются живым объектом. В результате результаты могут быть неточными и предвзятыми, особенно при работе с большими данными, которые частично носят социальный характер. Крайне важно признать, что большие данные — это больше, чем просто набор чисел и статистики; он содержит социальные предубеждения, и поэтому его анализ требует чуткости и осторожности. Для устранения этих ограничений появились новые методы и технологии, такие как машинное обучение и искусственный интеллект, позволяющие проводить более объективный анализ больших данных.

Саморазвитие «больших данных»

В современную цифровую эпоху данные часто сравнивают с новой нефтью (Javornik et al., 2019), поскольку они стали незаменимым ресурсом для предприятий и организаций по всему миру. Однако ежедневный приток данных затрудняет извлечение из них значимых идей и полезной информации. Чтобы разобраться в этом огромном объеме данных, наиболее распространенными подходами являются визуализация данных и статистический анализ. Статистический анализ помогает сделать вывод о природе данных на основе естественных и социальных законов, тогда как визуализация данных обеспечивает визуальное представление данных. Тем не менее, машинное обучение ввело новую парадигму в анализе данных, позволив большим данным самостоятельно раскрыть свою суть. Машинное обучение, подобласть искусственного интеллекта, в которой используются алгоритмы, позволяющие компьютерам учиться на данных без явного программирования (Коза и др., 1996), произвело революцию в способах анализа данных и предоставило новый взгляд на природу больших данных. Вместо того, чтобы полагаться исключительно на визуализацию данных и статистический анализ, машинное обучение позволяет данным выявлять закономерности и идеи, которые в противном случае были бы упущены, выявляя скрытые связи, которые предоставляют предприятиям и организациям ценную информацию.

Основным преимуществом машинного обучения является его способность обрабатывать огромные объемы данных. Традиционные методы статистического анализа больше не могут справиться с постоянно растущим объемом данных, генерируемых каждый день. Алгоритмы машинного обучения могут быстро и эффективно обрабатывать огромные объемы данных, позволяя компаниям принимать обоснованные решения в режиме реального времени. Принимая решения на основе данных, организации могут получить конкурентное преимущество за счет использования методов машинного обучения (Cavalcante et al., 2019). Кроме того, машинное обучение позволяет большим данным говорить сами за себя, позволяя ученым, работающим с данными, воспитывать их, как если бы они были ребенком. Точно так же, как родители руководят развитием своих детей, ученые, работающие с данными, могут руководить созданием моделей машинного обучения для лучшего понимания данных (Рассел, 2010). Этот метод может выявить скрытые идеи, которые были бы упущены из виду обычными методами анализа. По мере того, как модели машинного обучения продолжают учиться и развиваться, они могут раскрывать закономерности и взаимосвязи, которые можно использовать для принятия более обоснованных решений.

[ВНЕШНИЕ ДАННЫЕ] «Большие данные» также должны быть бесплатными

Данные — это одновременно актив и информация

В эпоху больших данных данные стали незаменимым ресурсом для инноваций, исследований и принятия решений. Тем не менее, большие данные часто принадлежат и контролируются частными организациями, что приводит к ограничениям доступа и использования; поэтому свобода данных необходима, чтобы полностью раскрыть ее потенциал. Подобно тому, как отдельные люди получают выгоду от принадлежности к разнообразному сообществу, многообразию, сложности и многогранности больших данных может способствовать подход коллективного знания (Blesik et al., 2022). Публикуя и делая большие данные доступными для общественности, мы можем использовать широкий спектр точек зрения и знаний, что приводит к увеличению инноваций и развития (Моллой, 2011). Свобода данных утверждает, что данные являются общественным благом, которое должно быть доступно всем, тем самым способствуя сотрудничеству, инновациям и экономическому росту, одновременно решая социальные проблемы (Taylor, 2016). Свобода данных также может помочь в решении проблем конфиденциальности и безопасности, а также в укреплении доверия к системам данных. Содействие свободе данных может повысить ценность, позволяя большему количеству людей и организаций получать доступ к данным и использовать их для общественного блага. В целом свобода данных может создать более разнообразную и инклюзивную среду данных, что приведет к расширению сотрудничества, инновациям и росту.

Движущие силы движения открытых данных

Движение за открытые данные в последние годы набрало значительный импульс, чему способствовало множество факторов, отражающих растущее признание важности данных в современном обществе. Технологические достижения стали одной из основных движущих сил этого движения (Рамачандран и др., 2021), поскольку новые инструменты и методы хранения, обработки и обмена данными упростили и сделали более экономичным сделать данные открытыми и доступными. Облачные вычисления и мобильные устройства сыграли решающую роль в повышении доступности данных, поскольку они позволили людям хранить данные и получать к ним доступ из любой точки мира. Еще одним ключевым фактором движения за открытые данные является растущий спрос на прозрачность и подотчетность (Мировски, 2018), поскольку как граждане, так и политики одинаково призывают к большей прозрачности и подотчетности со стороны правительств и организаций. Доступность открытых данных может способствовать доверию и участию общественности в принятии решений, что приведет к созданию более инклюзивного и демократического общества. Кроме того, открытые данные имеют экономические, социальные и экологические преимущества (Huber et al., 2022), поскольку они могут стимулировать инновации, создавать новые возможности для бизнеса, решать социальные и экологические проблемы и способствовать достижению Целей устойчивого развития.

Барьеры на пути движения открытых данных

Принятие инициатив в области открытых данных сдерживается рядом препятствий. Стандартизация и функциональная совместимость создают серьезные проблемы при обмене и анализе данных из разных источников (Маали и др., 2010). Прогресс в усилиях по стандартизации был медленным, и многие организации испытывают трудности с эффективным обменом и объединением данных. Проблемы конфиденциальности и безопасности также являются основными препятствиями на пути внедрения открытых данных (Венцерц и Люних, 2020). Обеспечение конфиденциальности и безопасности данных имеет важное значение для укрепления доверия и поощрения участия в инициативах по открытым данным. Технические знания и инфраструктура создают еще одно серьезное препятствие, особенно для небольших организаций с ограниченными ресурсами (Мэнни и др., 2021). Развитие технического потенциала и инфраструктуры имеет важное значение для успешной реализации. Наконец, политическая воля имеет важное значение для обеспечения финансирования и поддержки инициатив в области открытых данных, и могут потребоваться пропагандистские усилия для создания коалиций поддержки среди заинтересованных сторон (Gil-Garcia et al., 2020).

Заключение

Данные стали неотъемлемой частью нашей жизни в современную эпоху, меняя то, как мы общаемся, работаем и живем. В этом эссе рассматривается концепция мобильности больших данных и то, как ее рост сделал возможным ранее невозможные формы анализа и создания знаний. В эссе рассматриваются взгляды Intradata, Interdata и Outerdata на данные и то, как они способствуют пониманию данных и работе с ними. ИНТРАДАТА подчеркивает важность понимания статических и динамических характеристик больших наборов данных для точной обработки и анализа. INTERDATA утверждает, что понимание больших данных требует сочетания подходов, включая визуализацию данных, статистический анализ и машинное обучение. OUTERDATA подчеркивает социальный аспект данных и выступает за свободу данных, чтобы стимулировать инновации, способствовать экономическому росту и решать социальные проблемы. Понимание этих перспектив позволяет нам работать с данными более эффективно и этично, а также использовать весь их потенциал на благо общества, несмотря на их сложность и постоянную эволюцию.

Рекомендации

Аззам Т., Эвергрин С., Гермут А.А. и др. (2013) Визуализация и оценка данных. Новые направления оценки 2013(139): 7–32.

Блесик Т., Бик М. и Куммер Т.Ф. (2022) Концептуализация массового знания. Границы информационных систем 24(5): 1647–1665.

Кавальканте ИМ, Фраззон ЕМ, Форселлини Ф.А. и др. (2019) Подход к контролируемому машинному обучению для моделирования на основе данных устойчивого выбора поставщиков в цифровом производстве. Международный журнал управления информацией 49: 86–97.

Хиль-Гарсия-младший, Гаско-Эрнандес М. и Пардо Т.А. (2020 г.) За пределами прозрачности, участия и сотрудничества? Размышления о размерах открытого правительства. Общественная оценка деятельности и управления 43(3): 483–502.

Хубер Ф., Понсе А., Ренточкини Ф. и др. (2022) Богатство стран (открытых данных)? Открытые правительственные данные, институты странового уровня и предпринимательская деятельность. Промышленность и инновации 29(8): 992–1023.

Яворник М., Надох Н. и Ланге Д. (2019) Данные — это новая нефть. В: Мюллер Б. и Мейер Г. (ред.) На пути к ориентированному на пользователя транспорту в Европе: проблемы, решения и сотрудничество. Чам: Springer International Publishing, стр. 295–308.

Китчин Р. (2014) Революция данных: большие данные, открытые данные, инфраструктуры данных и их последствия. Лондон: SAGE Publications Ltd, 1–26.

Китчин Р. и МакАрдл Г. (2016) Что делает большие данные большими данными? Исследование онтологических характеристик 26 наборов данных. Большие данные и общество 3(1): 2053951716631130.

Коза Дж.Р., Беннетт Ф.Х., Андре Д. и др. (1996) Автоматизированное проектирование топологии и размеров аналоговых электрических цепей с использованием генетического программирования. В: Gero JS и Sudweeks F (ред.) Искусственный интеллект в дизайне '96. Дордрехт: Springer Нидерланды, стр. 151–170.

Линдли Д.В. (2000) Философия статистики. Журнал Королевского статистического общества: Серия D (Статистик) 49(3): 293–337.

Маали Ф., Циганиак Р. и Перистерас В. (2010) Обеспечение совместимости каталогов правительственных данных. Берлин, Гейдельберг: Springer Berlin Heidelberg, 339–350.

Мэнни Л., Дуйган М., Фишер М. и др. (2021) Барьеры на пути цифровой трансформации инфраструктурных секторов. Политические науки 54(4): 943–983.

Мировский П. (2018) Будущее открытой науки. Социальные исследования 48(2): 171–203.

Моллой Дж. К. (2011) Фонд открытых знаний: открытые данные означают лучшую науку. PLOS Biology 9(12): e1001195.

Оатли Г.К. (2022 г.) Темы интеллектуального анализа данных, больших данных и анализа преступности. Интеллектуальный анализ данных и обнаружение знаний WIREs 12(2): e1432.

Ольшанникова Е, Ометов А, Кучерявый Ю и др. (2016) Визуализация больших данных. В: Фюрхт Б. и Вилланустре Ф (ред.) Технологии и приложения больших данных. Чам: Springer International Publishing, стр. 101–131.

Рамачандран Р., Багби К. и Мерфи К. (2021) От открытых данных к открытой науке. Наука о Земле и космосе 8(5): e2020EA001562.

Риальти Р., Золло Л., Феррарис А. и др. (2019) Возможности и производительность анализа больших данных: данные модерируемой мультимедиативной модели. Технологическое прогнозирование и социальные изменения 149: 119781.

Рассел С.Дж. (2010) Искусственный интеллект – современный подход. Pearson Education, Inc.

Тейлор Л. (2016)Этика больших данных как общественного блага: какая общественность? Чье добро? Философские труды Королевского общества A: Математические, физические и инженерные науки 374(2083): 20160126.

Винсьерц С. и Люних М. (2020 г.) Доверяйте приложениям открытых данных посредством прозрачности. Новые медиа и общество 24 (8): 1751–1770.

Сюй Ф., Линь Ю., Хуан Дж. и др. (2016) Понимание и прогнозирование мобильного трафика на основе больших данных: подход временных рядов. Транзакции IEEE в сфере вычислений 9(5): 796–805.