我正在建立一种无监督的机器学习模型,以研究每个交易对中的模式并检测异常。但是在标记交易对时存在问题。
数据包含来自22,040个交易对(发送和收款人帐户)的2,333,998个交易对。我认为,如果我想调查每对的模式,就应该给它们加上标签。所以我做了标签编码器,创建了一个新变量来索引它们。但是此编码方法将为交易对创建自然顺序,该顺序不应该存在。当我想使用无监督分类方法来测量数据点之间的距离时,可能会影响结果。
如果我使用一个热编码器,它将生成22040个变量,并且可能会导致尺寸诅咒。我应该如何预处理数据集?