应用错误收集

我暗示这是一个社区维基，看到答案可能非常广泛。我正在与一家初创公司合作，以实现以下目标。

在医学研究中，患者病历可以具有关于特定诊断的患者的无限量数据，例如，吸烟者患肺癌的几率较高，但这并不一定意味着非吸烟者可以患上肺癌。我的目标是创建/使用可以处理这些参数的数据库模型。

现在，我还必须想出数据挖掘这些参数化数据以创建统计数据的方法，例如了解所有患有肺癌的40岁女性的趋势。该报告可以是通用的，（图表，表格等），医生可以看到趋势或分析可行的解决方案....

我的问题是： 1）哪些数据库系统允许参数化后端存储（例如Cassandra），可以在java中轻松使用，并且在数据检索，链接等方面非常有效。我们正在处理每个州的大量患者记录。

2）我可以使用哪些算法或AI技术进行数据挖掘？有没有任何采矿技术可以帮助我做到这一点？

PS Google Analytics如何处理参数化数据？
PPS 参数化数据是具有键的数据，数据可以是值的数据，另一个键值对，值列表，一组参数化数据（有组织的，无组织的）

我期待着提示性的答案！ :-D

对于这个问题，我们就是这样做的。

我们创建了一个名为medical的密钥空间和一个名为patient的超级列族。

在超级大家庭下，我们有一个general超级列，基本上存储患者的详细信息，另一个超级列称为operation，用于记录用户职业。

不要忘记general超级列在他/她来看医生时记录患者。这样，我们就可以准确了解患者在手术前，手术中和手术后的确切情况。

我知道有些数据可能是重复的，但是没有超级列可以是相同的，因为没有办法可以让2个不同的患者具有相同的属性和疾病。

基本上，Cassandra允许3层抽象，Keyspace，Column / Supercolumn系列，Column / Supercolumn。

希望这可以帮助某人。