机器学习:处理大量分类数据的最佳技术

时间:2017-09-11 09:18:23

标签: python machine-learning categorical-data

假设我有一个包含10列的5000行矩阵,其中大多数都填充了分类数据(字符串),在每列中我有10-30个不同的字符串。在python中处理它的最佳理想方法/算法是什么? OneHotEncoder会给我一个非常大的矩阵

3 个答案:

答案 0 :(得分:0)

我不知道它是否理想,但你可以使用scipy。您可以尝试使用单热编码以及sparse matrix表示形式来生成矩阵。

答案 1 :(得分:0)

Scikit-learn的单热编码器默认使用稀疏矩阵,因此精确的矩阵形状没有问题(因为它不会存储非零条目)。

一些简单的sklearn算法(线性模型,树,Naive Bayes)能够处理这种稀疏数据 - 具体示例请参见Computational Performance部分或Classification of text documents using sparse features

答案 2 :(得分:-2)

为什么不使用图形数据库:https://neo4j.com 但我的建议是JCR:modeshape.jboss.org 您可以进行更深入的叶子索引并获得非常灵活的查询