我有一个包含许多简历的数据库,包括性别,年龄,地址,受教育年数以及每个人的许多其他参数的结构化数据。
对于大约10%的样本,我还有关于他们在某个时间点所做出的某项行动的其他数据。例如,简于1998年7月获得住房贷款,或者约翰于2007年1月开始接受培训,并于2007年12月获得执照。
我需要一种算法,针对每个动作,给出每个人在未来时间增量中发生的概率。例如,比尔获得住房贷款的机会在2011年为2%,2012年为3.5%等等。
我该如何处理?回归分析? SVM?神经网络?还有别的吗?
是否有一些标准工具/库可以用于明显的自定义?
答案 0 :(得分:1)
考虑到Y发生的X发生的可能性正好在贝叶斯推断之外,我认为。
答案 1 :(得分:1)
娄是对的,这是“贝叶斯推理”的情况。
解决这个问题的最佳工具/库是R统计编程语言(r-project.org)。
看看R中的贝叶斯推理库: http://cran.r-project.org/web/views/Bayesian.html
“10%的样本”中有多少人?如果它低于100人左右,我担心分析的结果可能不会很大。如果它是1000或更多的人,结果将是非常好的(经验法则)。
我会先将数据导出到R(r-project)并进行必要的数据清理。然后找一个熟悉R和高级统计数据的人,他将能够很快解决这个问题。或试试自己,但R在开始时需要一些时间。
答案 2 :(得分:1)
关于工具/库选择,我建议您尝试Weka。它是一个用于试验数据挖掘和机器学习的开源工具。 Weka有几种工具可用于读取,处理和过滤数据,以及预测和分类工具。
但是,你必须在上述领域有一个坚实的基础,以争取有用的结果。