应用错误收集

我正在建立一种无监督的机器学习模型，以研究每个交易对中的模式并检测异常。但是在标记交易对时存在问题。

数据包含来自22,040个交易对（发送和收款人帐户）的2,333,998个交易对。我认为，如果我想调查每对的模式，就应该给它们加上标签。所以我做了标签编码器，创建了一个新变量来索引它们。但是此编码方法将为交易对创建自然顺序，该顺序不应该存在。当我想使用无监督分类方法来测量数据点之间的距离时，可能会影响结果。

如果我使用一个热编码器，它将生成22040个变量，并且可能会导致尺寸诅咒。我应该如何预处理数据集？

如何减少标签编码器的影响

0 个答案: