应用错误收集

我正在开发一个包含Python和R脚本的工作流程。在当前状态下，以csv文件形式的原始输入被读入Python，然后输出被写入被摄入R的csv，R脚本的输出再次写入csv并写入Python 。

正在处理的数据帧非常大（> 60GB），因此可以理解这个过程需要很长时间，我想加快速度。下面我列出了我的尝试和结果：

使用拼花格式：此解决方案不可行，因为它需要R在事物的一面
利用羽毛格式：此解决方案不可行，因为羽毛文件在当前状态下存在极大文件（> 300,000,000条记录）的问题

目前我正在研究将数据框保存在工作内存中的想法，并以某种方式在R和Python之间传递对象，而无需通过写入和读取文件的i / o过程。我在网上搜索过但没有找到合适的解决方案。我正在检查这里是否有人有这种项目的经验或任何其他类型的建议。到目前为止，我发现最接近的是将Python和R脚本组合成一个笔记本/降价样式脚本，能够解释R和Python代码，但是我正在寻找一种能够使脚本更加模块化的解决方案。任何建议，将不胜感激。谢谢！

在内存

0 个答案: