假设我有一个包含10列的5000行矩阵,其中大多数都填充了分类数据(字符串),在每列中我有10-30个不同的字符串。在python中处理它的最佳理想方法/算法是什么? OneHotEncoder会给我一个非常大的矩阵
答案 0 :(得分:0)
我不知道它是否理想,但你可以使用scipy。您可以尝试使用单热编码以及sparse matrix表示形式来生成矩阵。
答案 1 :(得分:0)
Scikit-learn的单热编码器默认使用稀疏矩阵,因此精确的矩阵形状没有问题(因为它不会存储非零条目)。
一些简单的sklearn算法(线性模型,树,Naive Bayes)能够处理这种稀疏数据 - 具体示例请参见Computational Performance部分或Classification of text documents using sparse features
答案 2 :(得分:-2)
为什么不使用图形数据库:https://neo4j.com 但我的建议是JCR:modeshape.jboss.org 您可以进行更深入的叶子索引并获得非常灵活的查询