“参数化”数据库模型&后端存储系统以及数据挖掘操​​作

时间:2010-07-12 18:54:48

标签: database algorithm architecture data-structures

我暗示这是一个社区维基,看到答案可能非常广泛。 我正在与一家初创公司合作,以实现以下目标。

在医学研究中,患者病历可以具有关于特定诊断的患者的无限量数据,例如,吸烟者患肺癌的几率较高,但这并不一定意味着非吸烟者可以患上肺癌。我的目标是创建/使用可以处理这些参数的数据库模型。

现在,我还必须想出数据挖掘这些参数化数据以创建统计数据的方法,例如了解所有患有肺癌的40岁女性的趋势。该报告可以是通用的,(图表,表格等),医生可以看到趋势或分析可行的解决方案....

我的问题是: 1)哪些数据库系统允许参数化后端存储(例如Cassandra),可以在java中轻松使用,并且在数据检索,链接等方面非常有效。我们正在处理每个州的大量患者记录。

2)我可以使用哪些算法或AI技术进行数据挖掘?有没有任何采矿技术可以帮助我做到这一点?

PS Google Analytics如何处理参数化数据?
PPS 参数化数据是具有键的数据,数据可以是值的数据,另一个键值对,值列表,一组参数化数据(有组织的,无组织的)

我期待着提示性的答案! :-D

2 个答案:

答案 0 :(得分:0)

答案 1 :(得分:0)

对于这个问题,我们就是这样做的。

我们创建了一个名为medical密钥空间和一个名为patient的超级列族。

在超级大家庭下,我们有一个general超级列,基本上存储患者的详细信息,另一个超级列称为operation,用于记录用户职业。

不要忘记general超级列在他/她来看医生时记录患者。这样,我们就可以准确了解患者在手术前,手术中和手术后的确切情况。

我知道有些数据可能是重复的,但是没有超级列可以是相同的,因为没有办法可以让2个不同的患者具有相同的属性和疾病。

基本上,Cassandra允许3层抽象,Keyspace,Column / Supercolumn系列,Column / Supercolumn。

希望这可以帮助某人。