python - 机器学习：处理大量分类数据的最佳技术

时间：2017-09-11 09:18:23

标签： python machine-learning categorical-data

假设我有一个包含10列的5000行矩阵，其中大多数都填充了分类数据（字符串），在每列中我有10-30个不同的字符串。在python中处理它的最佳理想方法/算法是什么？ OneHotEncoder会给我一个非常大的矩阵

答案 0 :(得分：0)

我不知道它是否理想，但你可以使用scipy。您可以尝试使用单热编码以及sparse matrix表示形式来生成矩阵。

答案 1 :(得分：0)

Scikit-learn的单热编码器默认使用稀疏矩阵，因此精确的矩阵形状没有问题（因为它不会存储非零条目）。

一些简单的sklearn算法（线性模型，树，Naive Bayes）能够处理这种稀疏数据 - 具体示例请参见Computational Performance部分或Classification of text documents using sparse features

答案 2 :(得分：-2)

为什么不使用图形数据库：https://neo4j.com 但我的建议是JCR：modeshape.jboss.org 您可以进行更深入的叶子索引并获得非常灵活的查询