Question

我正在尝试建立信用违约预测模型。我有一个超过20,000个客户的数据集，其功能是过去≤24个月的客户付款。

数据集如下：

           Month_1.      Month_2.      Month_3.     ....   Month_n.
Customer_1.   10             5             0                    4
Customer_2.    6            20            10                    4
Customer_3.    8            40           NaN                  NaN
...
Customer_m.   14           100            12                    8

我的问题是这是否是一个时间序列问题，以及如何使用机器学习策略来解决它。

一些挑战是：

客户之间的时间序列不同步，即客户之间的Month_1并不相同，即customer_1的Month_1可以是2月，customer_2的4月。
客户之间的时间序列长度可能不同（例如，customer_1可能有18个月的数据，customer_2可能有3个月的数据
如何解释可能完全不相关的时间序列中的趋势和季节性（即，customer_1的行为独立于customer_2的行为，因此趋势可能非常不同）

到目前为止，我一直在为每个客户的付款创建汇总统计信息，因此将数据集转换为：

             mean.      std.      pct_change.     
Customer_1.   20       3.4             0.5                   
Customer_2.   10       3.0            0.01
...
Customer_m.   30       1.5             0.2

然后我正在考虑将异常检测算法（例如隔离林）应用于默认者/非默认者的分类。

这是正确的方法还是我应该考虑每个客户时间序列中的季节性因素？

如果应考虑每个客户的时间序列-如何在数据集中系统地进行处理？

如果有人可以给我一些提示，我将非常感激。非常感谢。

如何解决多个时间序列的分类问题？

0 个答案: