我是机器学习的初学者。我有一个包含大量分类数据的大型数据集。数据是标称值。我想通过Python和scikit-learn应用SVM和决策树之类的算法来查找数据中的模式。
我的问题是,我不知道如何最好地处理此类数据。我读了很多有关“一键编码”的文章。这些示例都很简单,就像使用三种不同的颜色一样。在我的数据中,大约有30种不同的分类特征。在这些功能中,大约有200个不同的“值”。 如果我使用简单的“一键编码”,则数据帧会变得很大,并且由于用完了内存,几乎无法对数据使用任何算法。
那么这里最好的方法是什么?对编码表使用sql数据库?在“现实”世界中如何做到这一点?
提前感谢您的回答!