在内存

时间:2017-11-17 22:22:26

标签: python r pandas

我正在开发一个包含Python和R脚本的工作流程。在当前状态下,以csv文件形式的原始输入被读入Python,然后输出被写入被摄入R的csv,R脚本的输出再次写入csv并写入Python 。

正在处理的数据帧非常大(> 60GB),因此可以理解这个过程需要很长时间,我想加快速度。下面我列出了我的尝试和结果:

  1. 使用拼花格式:此解决方案不可行,因为它需要R在事物的一面
  2. 利用羽毛格式:此解决方案不可行,因为羽毛文件在当前状态下存在极大文件(> 300,000,000条记录)的问题
  3. 目前我正在研究将数据框保存在工作内存中的想法,并以某种方式在R和Python之间传递对象,而无需通过写入和读取文件的i / o过程。我在网上搜索过但没有找到合适的解决方案。我正在检查这里是否有人有这种项目的经验或任何其他类型的建议。到目前为止,我发现最接近的是将Python和R脚本组合成一个笔记本/降价样式脚本,能够解释R和Python代码,但是我正在寻找一种能够使脚本更加模块化的解决方案。任何建议,将不胜感激。谢谢!

0 个答案:

没有答案