我暗示这是一个社区维基,看到答案可能非常广泛。 我正在与一家初创公司合作,以实现以下目标。
在医学研究中,患者病历可以具有关于特定诊断的患者的无限量数据,例如,吸烟者患肺癌的几率较高,但这并不一定意味着非吸烟者可以患上肺癌。我的目标是创建/使用可以处理这些参数的数据库模型。
现在,我还必须想出数据挖掘这些参数化数据以创建统计数据的方法,例如了解所有患有肺癌的40岁女性的趋势。该报告可以是通用的,(图表,表格等),医生可以看到趋势或分析可行的解决方案....
我的问题是: 1)哪些数据库系统允许参数化后端存储(例如Cassandra),可以在java中轻松使用,并且在数据检索,链接等方面非常有效。我们正在处理每个州的大量患者记录。
2)我可以使用哪些算法或AI技术进行数据挖掘?有没有任何采矿技术可以帮助我做到这一点?
PS Google Analytics如何处理参数化数据?
PPS 参数化数据是具有键的数据,数据可以是值的数据,另一个键值对,值列表,一组参数化数据(有组织的,无组织的)
我期待着提示性的答案! :-D
答案 0 :(得分:0)
答案 1 :(得分:0)
对于这个问题,我们就是这样做的。
我们创建了一个名为medical
的密钥空间和一个名为patient
的超级列族。
在超级大家庭下,我们有一个general
超级列,基本上存储患者的详细信息,另一个超级列称为operation
,用于记录用户职业。
不要忘记general
超级列在他/她来看医生时记录患者。这样,我们就可以准确了解患者在手术前,手术中和手术后的确切情况。
我知道有些数据可能是重复的,但是没有超级列可以是相同的,因为没有办法可以让2个不同的患者具有相同的属性和疾病。
基本上,Cassandra允许3层抽象,Keyspace,Column / Supercolumn系列,Column / Supercolumn。
希望这可以帮助某人。