我有一个10 + gb的csv文件,我在pandas.read_csv()中使用了“chunksize”参数来读取和预处理数据,用于训练模型想要使用其中一个在线学习算法。
通常在整个训练数据集上进行交叉验证和超参数调整,并使用最佳超参数训练模型,但是对于大数据,如果我在大块数据上执行相同操作训练数据如何选择超参数?
答案 0 :(得分:0)
我相信您正在寻找类似于此链接Scaling Strategies for large datasets中提到的在线学习算法。您应该使用支持partial_fit
参数的算法以块的形式加载这些大型数据集。您还可以查看以下链接,了解哪一个可以帮助您最好,因为您没有指定您正在处理的确切问题或算法:
编辑:如果您想解决课程不平衡问题,可以试试这个:imabalanced-learn library in Python