应用错误收集

背景：我正致力于将票证系统数据中的数据分类为失败或成功的请求。请求在完成之前进入各个阶段。在将每个请求标记为完成之前，会将其分配给不同的团队和个人。利用历史数据，我希望在最终状态x之前为这些票据创建预测，然后将其标记为完成（成功或失败）。

在各种功能中，个人姓名从事记录和工作。团队名称是分析这些数据的重要因素。作为一个庞大的组织，我希望每天增加5-10个新名字。

历史数据

60k记录（用于培训，验证和测试）拥有10k独特的个人名称

当前数据 总计1k记录 - 有200个人名

由于基数较高的个人姓名，我的数字不固定且不断增长，因此我面临挑战。 1.做出实际预测时的挑战 - 没有。当前数据的列每次都不同，并且永远不会匹配训练数据的特征长度。 - 所以我必须每次训练我的模型，我想做出预测。 2.数据准备时的挑战 - 上面也对数据准备提出了挑战，因为现在我总是需要对完整数据和查询编码数据进行编码，以便分成当前和未来的数据。

对不起，故事很长。

我在寻找什么？

有更好的方法吗？这些高＆amp;不断变化的尺寸是一种痛苦。关于我如何处理它们以避免每次训练的任何建议？

注意：我尝试使用PCA和Autoencoders进行暗红色调。（对于我的高度不平衡的数据集，结果不是很好，所以我只处理高维数据）

高基数数据的挑战

2 个答案: