матрица замещения на основе преобразования пространственной автокорреляции

Я хотел бы измерить сходство последовательностей Хэмминга, в котором затраты на замещение основаны не на скорости замещения в наблюдаемых последовательностях, а на пространственной автокорреляции в пределах изучаемой области различных состояний (состояния, таким образом, связаны не с ДНК, а с чем-то другим). ).

Я разделил свою область исследования на ячейки сетки одинакового размера (например, 1000 м) и измерил, как часто одно и то же «состояние» наблюдается в соседней ячейке (Rook-case). Следовательно, весовая матрица показывает, что переход из состояния A в A (для перемещения в пределах тех же состояний) имеет гораздо более высокую вероятность, чем переход из A в B или из B в C или из A в C. Это уже указывает на то, что состояния имеют высокую пространственную автокорреляцию.

Проблема в том, что если вы хотите измерить сходство последовательностей, матрица замещения должна быть 0 по диагонали. Поэтому мне было интересно, есть ли какое-то преобразование для перехода от «матрицы автокорреляции» к матрице замещения со значениями 0 по диагонали. С помощью этого мы хотели бы учесть пространственную автокорреляцию в изучаемой области в нашей мере сходства последовательностей. Для анализа я использую пакет TraMineR.

Пример матрицы в R для последовательностей, состоящих из четырех состояний (A,B,C,D): Пример последовательности: AAAAAABBBBCCCCCCCCCCCCDDDDDDDDDDDDDDDDDDDDDDDAAAAAAAAA

Матрица автокорреляции:

A = c(17.50,3.00,1.00,0.05)
B = c(3.00,10.00,2.00,1.00)
C = c(1.00,2.00,30.00,3.00)
D = c(0.05,1.00,3.00,20.00)
subm = rbind(A,B,C,D)
colnames(subm) = c("A","B","C","D")

как преобразовать эту матрицу в матрицу подстановки?


person jedgroev    schedule 22.09.2014    source источник
comment
Пожалуйста, объясните, как вы получаете стоимость замещения из вашей пространственной автокорреляции. В любом случае, я не могу понять, почему вы назначаете стоимость замены состояния самому себе.   -  person Gilbert    schedule 22.09.2014
comment
Матрица дает вероятность того, что локация будет в определенном состоянии, если вы поставите случайные точки в области, и выражается в процентах. Цель состоит в том, чтобы стоимость замещения определялась этими значениями пространственной автокорреляции. В примере матрицы сумма всех коэффициентов замещения должна равняться 100.   -  person jedgroev    schedule 23.09.2014
comment
Поскольку предоставленная матрица НЕ является матрицей стоимости замещения, я предлагаю вам отредактировать вопрос, чтобы было ясно, что это такое. Как есть, вопрос неясен, и поэтому я проголосовал против него.   -  person Gilbert    schedule 23.09.2014


Ответы (1)


Во-первых, TraMineR вычисляет расстояние Хэмминга, т. е. различие, а не сходство.

Простое расстояние Хэмминга — это просто количество несовпадений между двумя последовательностями. Например, расстояние Хэмминга между AABBCC и ABBBAC равно 2, а между AAAAAA и AAAAAA равно 0, поскольку несовпадений нет.

Обобщенный Хэмминг позволяет взвешивать несовпадения (не совпадения!) с затратами замещения. Например, если стоимость замещения между A и B равна 1,5, а между B и C — 2, то расстояние будет представлять собой взвешенную сумму несоответствий, т. е. 3,5 между первыми двумя последовательностями. Он по-прежнему будет равен нулю между одной последовательностью и самой собой.

Насколько я понимаю, показанная матрица не является матрицей издержек замещения. Это матрица того, что вы называете «пространственными автокорреляциями», и вы ищете, как превратить эту информацию в стоимость замещения.

Идея состоит в том, чтобы присвоить высокую стоимость замещения (вес несоответствия), когда автокорреляция (коэффициент в вашем случае) низка, т. е. когда существует низкая вероятность найти, скажем, состояние B в окрестности состояния A, и присвоить низкий Стоимость замещения, когда вероятность высока. Поскольку ваша матрица вероятностей симметрична, простое решение состоит в том, чтобы использовать $1 - p(A|B)$ для всех недиагональных членов и оставить 0 на диагонали по причине, объясненной выше.

sm <- 1 - subm/100
diag(sm) <- 0
sm

Для несимметричных вероятностей вы можете использовать формулу, аналогичную той, которая используется для получения затрат из коэффициентов перехода, т. е. $2 - p(A|B) - p(B|A)$.

person Gilbert    schedule 23.09.2014