Повторение, расёмон и произвольные метки

Чтения по вычислительным социальным наукам

Введение

В этой статье комментируются три статьи, связанные с вычислительными исследованиями в области социальных наук: (1) Повторяются ли каскады? (Cheng et al., 2016); (2) Интеграция текста и изображения: определение намерения мультимодального документа в публикациях Instagram (Kruk et al., 2019); и (3) Статистическое моделирование: две культуры (Брейман, 2001 г.); эти документы сосредоточены на (1) повторении обмена контентом в социальных сетях (здесь, Facebook); (2) использование мультимодальных данных (пар изображение-подпись) из социальных сетей (здесь, Instagram) для улучшения моделей авторского замысла; (3) и переход от моделирования данных к алгоритмическому моделированию в области статистики.

Ниже, вместо того чтобы приводить резюме этих работ, которые я настоятельно рекомендую всем, я сосредоточусь на следующих темах: (1) нечеткость сходства (в отличие от идентичности) в наборах данных; (2) роль моделирования в понимании (и воздействии) на систему; и (3) устойчивость ярлыков как культурных категорий. В сочетании эти темы направлены на изучение источников неоднозначности в науке о данных.

Повторение нечетких вещей

В статье, в заголовке которой ставится вопрос Повторяются ли каскады?, Cheng et al. [1] обсуждают долгосрочные модели обмена изображениями на Facebook, чтобы ответить на сопутствующие вопросы, такие как Может ли когда-то вирусный контент восстановить свою виральность? и Какие факторы влияют на повторяемость?. В рамках работы авторы исследуют такие явления, как (1) повторение каскадов обмена (даже после периодов затишья) как для исходного контента (т. е. постов), так и для скопированного контента (т. е. репостов), (2) насыщение аудитория по отношению к контенту (после чего интерес падает) и (3) сдерживающий эффект широты привлекательности контента (приблизительно по величине первоначального всплеска репостов контента) на повторяющееся поведение.

Как уже упоминалось, в исследовании рассматриваются как оригинальные посты, так и репосты, которые копируют или имитируют предыдущие посты. Для этого точные копии и почти идентичные копии группируются с оригинальным контентом для изучения каскадного повторения в группе. Группируя (повторно) посты, авторы смогли подробно изучить путь (низковариантного) контента типа по мере его распространения в сети; однако метод группировки (в данном случае двоичный k означает кластеризацию) не является нейтральным выбором и, таким образом, вызывает много вопросов о том, что означает сходство контента. В частности, хотя это исследование в основном касалось почти идентичных изображений (включая изображения с разным наложенным текстом), контент также мог быть схожим по другим параметрам, таким как символика или стиль.

В ходе исследования кластеры изображений отбираются случайным образом, чтобы подтвердить (путем ручной проверки), что они содержат достаточно похожие изображения; 94% отобранных кластеров содержат почти идентичные изображения, а оставшиеся 6% различаются по тексту). Тем не менее, последующее исследование с этими или аналогичными данными может поставить под вопрос измерения, по которым посты похожи (например, разделяют ли они темы? Одинаково ли они преобразуют изображения разных людей? Передают ли они схожие сообщения или вызывают схожие эмоции? ?), и как эти измерения можно различить с помощью машинного обучения. Вопросы о мимикрии контента — как разные пользователи обыгрывают одни и те же темы и их намерения при этом — могут быть интересны сами по себе, поскольку они могут быть связаны с творчеством и социальным поведением; однако эти вопросы также интересны с технической точки зрения, поскольку их можно рассматривать в свете алгоритма кластеризации, который может успешно фиксировать только определенные аспекты сходства, в то время как другие в значительной степени пропускают.

Эффект Расёмон и повествовательные пространства

В работе Statistical Modeling: The Two Cultures[2] Лео Брейман объясняет, как разные модели могут давать прогнозы примерно с одинаковой точностью (относительно рассматриваемой реакции), что приводит к различным, но одинаково убедительным описаниям изучаемая система; этот эффект известен как эффект Расёмон (по названию фильма Расёмон, в котором одна история рассказывается с точки зрения нескольких персонажей). Исходя из этой идеи (о наличии нескольких изображений системы, полученных из разных моделей с одинаковой прогностической ценностью), можно сказать, что интерпретации этих моделей образуют одно нарративное пространство, рассказывающее всю доступную историю. им; другими словами, если каждая модель может рассказать историю только с одной точки зрения (параллельно персонажам в Расёмон), то, объединив эти истории (некоторым перекрывающимся образом), можно создать одно повествовательное пространство, содержащее все одинаково убедительные истории. формируется (параллельно самому фильму).

(Кажется, есть что сказать и о моделях разной точности (~истории, которые по-разному убедительны), но для этого, я думаю, требуется другое измерение: дело не только в том, что у каждого персонажа есть своя версия историю, которую нужно рассказать, но также и то, что некоторые персонажи более или менее надежны как рассказчики, чем другие, что влияет на интерпретацию повествования зрителем (или аналитиком); добавление измерений таким образом, однако, делает интерпретацию более сложны, и, таким образом, для простоты может иметь смысл рассматривать только модели, которые обеспечивают конкурентоспособность.Кроме того, представляется возможным, что так называемое повествовательное пространство может быть отображено как плотность в некотором количестве измерений, так что аспекты истории (или особенностей модели), которые интерпретируются с точки зрения многих моделей, являются наиболее заметными.[В качестве примечания к отступлению, я недавно смотрел презентацию по конформному прогнозированию, сделанную Эммануэлем Кандесом на конференции по нейронной информации. Processing Systems (NeurIPS), и кажется, что могут быть хорошие связи (и, возможно, никаких отличий, кроме недостатков) между обрисованной в общих чертах работой вокруг интервалов предсказания и идеей плотности, которую я здесь представляю.])

В то время как идея повествовательного пространства хорошо согласуется с идеями из статистики (например, интервал прогнозирования, неопределенность, ансамбль), в парадигме больших данных и многопараметрических моделей, обученных для максимальной точности прогнозирования, интерпретация модели (или ее применение) может быть меньше о поиске истины (т. е. обнаружении областей с высокой плотностью в повествовательном пространстве) и больше о регулировании принятия решений без поиска истины; как таковая, вместо того, чтобы интерпретировать модель как представление изучаемой системы для понимания системы, модель можно оценивать в соответствии с ее ролью в принятии решений и модифицировать, чтобы ограничить, какие нарративы (в нарративном пространстве) могут быть использованы. продвигается (~ увеличивается) через предсказание.

Например, данные могут показывать, что при определенном наборе входных данных модели всегда возникает один и тот же ответ, и модель может узнать, что эти входные данные всегда должны предсказывать этот ответ, но это не обязательно означает, что ответ всегда должен быть одинаковым. производится с учетом этих входных данных в систему (может не существовать естественного закона, предписывающего реакцию, выборка может быть смещена, чтобы включать только определенные типы случаев, которые происходят в системе, повторение реакции может быть совершенно нежелательным); таким образом, когда модель выступает в качестве лица, принимающего решения, предсказание может сохранять статус-кво, если повествование, рассказываемое моделью, не ограничено, а для того, чтобы рассказываемое повествование было ограниченным, модель должна быть либо интерпретируемой и настраиваемой, либо адекватно проверяемой и переопределяемой.

Культурная стабильность произвольных ярлыков

Чтобы исследовать семиотическую концепцию, называемую умножением значений, Kruk et al. [3] рассматривают мультимодальный набор данных пар изображений и подписей, собранных из социальных сетей. Подписи не являются ни чистыми транскрипциями изображений, ни изображениями в чистом виде описаниями подписей, и поэтому вместо того, чтобы предполагать наличие такой прямой и асимметричной связи между двумя типами данных, изображения и подписи можно рассматривать как имеющие сложные отношения, которые зависят от сообщения. автор хочет передать через сочетание того и другого. Авторы аннотируют довольно небольшой набор данных (n = 1299) изображений из Instagram с тремя наборами подписей (один фиксирует авторское намерение, один фиксирует контекстуальные отношения и один фиксирует семиотические отношения), а затем строят модель для аннотирования сообщений в соответствии с этой таксономией. ; они показывают, что модель работает лучше, когда ей дано и изображение, и подпись, чем когда дается только одно или другое (и что подъем наибольшая, когда изображение и подпись расходятся семантически), что предположительно показывает, что значение умножается, но также звучит как что-то инверсия случая Линды, банковского кассира.

Из того, что я понял, это направление работы находилось на ранней стадии на момент написания этой статьи (2019 г.), поэтому есть много способов разделить и расширить это исследование; например, может быть интересно узнать, какие характеристики пар "изображение-подпись" объясняют повышение точности при сочетании типов данных, в какой степени эти характеристики выступают в качестве условий взаимодействия, а не отдельных лиц, и являются ли эти характеристики культурно стабильны в обществе. В частности, в отношении последнего пункта: поскольку метки (как плоские символы, прикрепленные к данным, а не как глубокие понятия, определенные в культуре) по своей сути произвольны (определяются неявно через путь от метки к данным, а не явно через предопределенные функции и относительно других). ярлыки), было бы интересно рассмотреть, связаны ли эксплицитные культурные определения понятий, используемых в качестве ярлыков в этой статье, с признаками, выбранными моделью, а удобный путь от данных к (произвольному) ярлыку без стабильной основы в культуре. , потому что, в конце концов, то, что в настоящее время является провокационным или противоречивым (две категории, используемые для аннотирования набора данных), может быть просто выразительным или развлекательным (две другие) в другом месте или в другое время.

Рекомендации

  1. Брейман, Лео. 2001. «Статистическое моделирование: две культуры». Статистическая наука 16 (3): 199–231.
  2. Ченг, Джастин, Лада А. Адамич, Джон М. Клейнберг и Юре Лесковец. 2016. Повторяются ли каскады? В Материалы 25-й Международной конференции по всемирной паутине, 671–81. Монреаль, Квебек, Канада: Руководящий комитет международных конференций по всемирной паутине. https://doi.org/10.1145/2872427.2882993.
  3. Крук, Джулия, Джона Любин, Каран Сикка, Сяо Линь, Дэн Джурафски и Аджай Дивакаран. 2019. Интеграция текста и изображения: определение намерения мультимодального документа в сообщениях Instagram. В Материалы конференции по эмпирическим методам обработки естественного языка 2019 г. и 9-й Международной совместной конференции по обработке естественного языка (EMNLP-IJCNLP), 4621–31. Гонконг, Китай: Ассоциация компьютерной лингвистики. https://doi.org/10.18653/v1/D19-1469.