我很高兴使用XGBoost提出预测模型;我担心的是将它用于(对我来说至少)大量的数据集。我有4~20gb的CSV文件和一些我想要清理的训练数据并为模型训练做好准备。我对如何开始为其他一切“启动”数据感到困惑;我有一些想法(我不确定它们是否是最好的)以及我预见到的一些限制:
pymysql
或sqlalchemy
:获取数据,以某种方式将其传递给SQL数据库。 问题:我是先处理数据,还是在数据库中处理完数据后再进行处理?Dask
在一台计算机上(而不是群集);再次,只是不确定如何在一次热编码后将其与XGBoost接口。Numpy
;我记得在阅读有关如何以某种方式表示每列的数组时如何工作,但我不能被记住。我的系统在64位Ubuntu上有24 GB的RAM。有没有办法以某种方式使用交换内存来完成所有处理?当然,这将是非常缓慢的。
实际上,我想知道一个人会推荐什么样的清洁,一热编码,以及用如此庞大的数据集训练机器学习算法。谢谢!