确定哪个疾病群集在一起

时间:2016-07-26 22:47:19

标签: statistics sas bioinformatics

如何确定哪些疾病聚集在一起?我有一个患者及其疾病的数据集。它被编码为HOHT = 1如果有,HOHT = 0如果没有它。

以下是数据示例。如何在没有写出一堆if if语句的情况下,如何确定哪些疾病最常发生?目标是创建像维恩图或树状图,显示疾病的重叠。

Moya    Hypothyroid Hyperthyroid    Celiac
   1       1           0             0
   1       1           0             0       
   0       0           1             1
   0       0           0             0
   1       1           0             0
   1       0           1             0
   1       1           0             0
   1       1           0             0
   0       0           1             1
   0       0           1             1

1 个答案:

答案 0 :(得分:1)

我能想到的最简单的方法是通过proc corr查看相关矩阵:

data diseases;
input Moya    Hypothyroid Hyperthyroid    Celiac;
cards;
   1       1           0             0
   1       1           0             0       
   0       0           1             1
   0       0           0             0
   1       1           0             0
   1       0           1             0
   1       1           0             0
   1       1           0             0
   0       0           1             1
   0       0           1             1
  ; 
run;

proc corr data = diseases out = disease_corr; run;

还有其他各种选择,但我不确定这个问题是否真的最适合这个网站,因为它非常广泛,更多的是关于统计而不是编程。如果遇到更具体的问题,请随意提出另一个问题。