大型(80gb)数据集,Pandas和xgboost

时间:2017-07-27 20:03:52

标签: python pandas numpy machine-learning xgboost

我很高兴使用XGBoost提出预测模型;我担心的是将它用于(对我来说至少)大量的数据集。我有4~20gb的CSV文件和一些我想要清理的训练数据并为模型训练做好准备。我对如何开始为其他一切“启动”数据感到困惑;我有一些想法(我不确定它们是否是最好的)以及我预见到的一些限制:

  • pymysqlsqlalchemy:获取数据,以某种方式将其传递给SQL数据库。 问题:我是先处理数据,还是在数据库中处理完数据后再进行处理?
  • Dask在一台计算机上(而不是群集);再次,只是不确定如何在一次热编码后将其与XGBoost接口。
  • 以某种方式使用Numpy;我记得在阅读有关如何以某种方式表示每列的数组时如何工作,但我不能被记住。
  • HDF5文件格式;仍然不认为它会使它足够小以合理地工作。

我的系统在64位Ubuntu上有24 GB的RAM。有没有办法以某种方式使用交换内存来完成所有处理?当然,这将是非常缓慢的。

实际上,我想知道一个人会推荐什么样的清洁,一热编码,以及用如此庞大的数据集训练机器学习算法。谢谢!

0 个答案:

没有答案