我正在使用sci-kit学习构建机器学习模型。我的数据集是svm文件的数量。我已经使用sklearn加载了这些文件。它将数据作为稀疏矩阵返回,并将目标作为numpy数组返回。现在问题是,不同的文件具有不同的尺寸,因此它们不能连接在一起形成一个大矩阵。
对于前,
对于一个文件 - X是< 16000x 3231949 类型为''的稀疏矩阵 使用压缩稀疏行格式的1847536个存储元素>
对于其他文件(来自同一数据集) - X是< 20000x 3231955 类型为''的稀疏矩阵 使用压缩稀疏行格式的2304202存储元素>
此数据集中有超过100个文件。他们有不同数量的功能,该怎么办?
感谢。