我的数据包含纬度,经度,时间戳和事件类别等功能。因此,数据集只包含实际发生的事件。问题是我想知道是否有可用于预测以下情况的首选模型:
请注意我已经查找了类似的问题,但它们有不同的用例
答案 0 :(得分:1)
要回答您提出的问题,随机林退回程序和最近邻居回归程序都是通用算法,可以解决您的问题,而且要少得多比神经网络这样的技术更为挑剔。
更新我错过了您的一个预测是概率。你真的希望正确校准概率。您可以在事后校准任何回归模型,也可以从强调正确概率的模型开始。这些通常会使用后勤损失的变体,其最基本的示例是logistic regression。无论您选择哪种技术,都可以更改指标" logloss"将是有价值的。
重要的一点是将您的数据分成" train"和"测试"集。这为您提供了一种验证模型是否按预期进行概括的方法。由于您有时变数据,测试集应该跨越列车设置基于时间的预测后的时间。这与为每个数据集随机选择数据点的通用方法不同。基本上,您希望测试集和火车集之间的差异尽可能地匹配真实世界数据与您当前观察到的数据之间的差异。
那就是说,算法的选择并不像对你正在使用的数据有充分理解那么重要。特征工程应占用大部分时间。您的数据中可能没有包含任何信息,preliminary data visualizations可能对您有很大帮助。