当您执行回归时,通常认为正确的方法是什么,并且您的训练数据包含某种类型的“事件”,但每条训练线可能会有不同数量的这些项目?
举个例子 - 假设我想预测在许多不同道路上发生事故的可能性。对于每条道路,我可能有多次事故的历史,每次事故都有自己不同的属性(日期(最近),伤亡人数等)。如何在一条线上封装所有这些信息?
例如,您可以假设最多(比如说)十,并将每个的详细信息包含为单独的输入(date1,NoC1,date2,NoC2等等),但问题是我们希望每个项目都是处理方式类似,模型将第4栏中的项目与上面第2栏中的项目基本分开,但不应该这样。
或者我们可以为每个事件包含一行,但是每行中与这些“事件”无关的任何其他列(例如道路年龄,宽度等)将被多次包含在内,从而产生偏差在结果中。
用于实现此目的的标准方法是什么?
非常感谢