应用错误收集

时间：2010-09-18 21:15:10

标签： neural-network svm prediction statistics

我有一个包含许多简历的数据库，包括性别，年龄，地址，受教育年数以及每个人的许多其他参数的结构化数据。

对于大约10％的样本，我还有关于他们在某个时间点所做出的某项行动的其他数据。例如，简于1998年7月获得住房贷款，或者约翰于2007年1月开始接受培训，并于2007年12月获得执照。

我需要一种算法，针对每个动作，给出每个人在未来时间增量中发生的概率。例如，比尔获得住房贷款的机会在2011年为2％，2012年为3.5％等等。

我该如何处理？回归分析？ SVM？神经网络？还有别的吗？

是否有一些标准工具/库可以用于明显的自定义？

答案 0 :(得分：1)

考虑到Y发生的X发生的可能性正好在贝叶斯推断之外，我认为。

答案 1 :(得分：1)

娄是对的，这是“贝叶斯推理”的情况。

解决这个问题的最佳工具/库是R统计编程语言（r-project.org）。

“10％的样本”中有多少人？如果它低于100人左右，我担心分析的结果可能不会很大。如果它是1000或更多的人，结果将是非常好的（经验法则）。

我会先将数据导出到R（r-project）并进行必要的数据清理。然后找一个熟悉R和高级统计数据的人，他将能够很快解决这个问题。或试试自己，但R在开始时需要一些时间。

答案 2 :(得分：1)

关于工具/库选择，我建议您尝试Weka。它是一个用于试验数据挖掘和机器学习的开源工具。 Weka有几种工具可用于读取，处理和过滤数据，以及预测和分类工具。

但是，你必须在上述领域有一个坚实的基础，以争取有用的结果。