Итак, я работаю над сценарием для сравнения данных, и мне нужно сопоставить собранные данные. DataFrame состоит из столбца генов, которые сравниваются с другими генами для получения дубликатов. Мне нужна корреляция генов, у которых есть один и тот же дублированный ген.
Пример данных:
Index Gene Duplicate of Value1 Value2 Value3 Etc.
0 Gene1 DGene1 0.1 14 13 ..
1 Gene14 DGene1 0 13 17 ..
2 Gene4 DGene3 20 0 0 ..
3 Gene90 DGene3 25 0 10 ..
4 Gene22 DGene31 0 10 0 ..
5 Gene40 DGene31 10 0.5 0 ..
6 Gene130 DGene31 10 1 0 ..
7 Gene600 DGene31 12 0 0 ..
В случае приведенного выше примера мне нужны три корреляции: 1 из генов Gene1 и Gene14, 1 из Gene4 и Gene90 и, наконец, одна из генов Gene22, Gene40, Gene130 и Gene600. Корреляции будут существовать для всех значений (Value1 и т. Д.) Из этих строк.
Я попытался сгруппировать данные по Дубликату (CGENE - Дубликат),
df_com2.groupby(CGENE).apply(lambda x: x.index.tolist())
но я не могу найти способ выбрать все значения из соответствующих генов после этого.
Любая помощь будет оценена по достоинству!