Я работаю с большим набором данных о лекарствах и реакциях, используя R. На данный момент у меня есть данные, структурированные как очень высокий фрейм данных, в котором перечислены идентификационный номер отчета, название лекарства и сообщенные реакции. Как вы понимаете, между идентификаторами и лекарствами и лекарствами и реакциями существует взаимосвязь "один ко многим".
Имея в виду, что этот набор данных НАМНОГО больше того, что я могу здесь воспроизвести, я хотел бы знать, как найти какие пары лекарств вызывают какие реакции и с какой частотой.
Самое главное, мне интересно, как подойти к такой проблеме. Правильно ли структурированы данные? О каких концепциях или библиотеках мне следует прочитать?
Вот ссылка на некоторые реальные данные: https://www.dropbox.com/s/kzx4mpyytbo9zil/query_result.csv
ID DRUG REACTION
1 1827 ASPIRIN CHEST PAIN
2 1827 CLARINEX CHEST PAIN
3 1827 ASPIRIN COUGH
4 1827 CLARINEX COUGH
5 1827 ASPIRIN HAEMOGLOBIN DECREASED
6 1827 CLARINEX HAEMOGLOBIN DECREASED
7 1827 ASPIRIN NEUTROPHIL COUNT INCREASED
8 1827 CLARINEX NEUTROPHIL COUNT INCREASED
9 1827 ASPIRIN PHARYNGOLARYNGEAL PAIN
10 1827 CLARINEX PHARYNGOLARYNGEAL PAIN
...
В моем маленьком мозгу конечный результат выглядит примерно так ...
Drug1 Drug2 Reaction Frequency
1 tylenol alcohol hepatic failure 298
2 advil aleve bleeding 201
3 aspirin advil renal failure 199
4 docusate senna diarrhea 146
5 senna sudafed palpitations 121
6 xanax alcohol sedation 111
7 clarinex benadryl dry mouth 96
...
569 ASPIRIN CLARINEX CHEST PAIN 2
Drug1 и Drug2 - это пары наркотиков с самой высокой частотой из всего набора данных. «Пара препаратов» определяется как любая комбинация двух препаратов с одним и тем же идентификатором отчета. Приведенный выше пример выходных данных можно интерпретировать как «строка 1 содержит 298 уникальных идентификаторов отчетов, для которых реакцией является печеночная недостаточность».
unique
, как разделить данные (subset
,[
) и как выполнить цикл / применить это кunique(df$REACTION)
? Если это не скорее статистический / концептуальный вопрос, не могли бы вы прояснить вопрос программирования? - person Martin   schedule 10.08.2014unique
иsubset
еще немного. Спасибо. - person Ryan   schedule 10.08.2014unique(df$ID)
- ›просмотреть или использовать функцию применения - person Martin   schedule 10.08.2014