我想训练一个具有很多名义属性的数据集。我从一些帖子中注意到,转换名义属性必须将它们转换为重复的二进制特征。另外,据我所知,这样做会在概念上使数据集稀疏。另外我知道scikit-learn使用稀疏矩阵和一些估算器,因为它更快或者更快。但我也发现一些估算器仍然不接受稀疏矩阵。我的问题是:到现在为止哪些人不接受稀疏矩阵?
答案 0 :(得分:4)
您可以通过检查docstring来检查scikit-learn中的方法是否支持稀疏矩阵。如果它说
X : {array-like, sparse matrix}
然后支持稀疏矩阵输入。当它只是"类似阵列"时,它们不受支持。