我正在开发一个包含Python和R脚本的工作流程。在当前状态下,以csv文件形式的原始输入被读入Python,然后输出被写入被摄入R的csv,R脚本的输出再次写入csv并写入Python 。
正在处理的数据帧非常大(> 60GB),因此可以理解这个过程需要很长时间,我想加快速度。下面我列出了我的尝试和结果:
目前我正在研究将数据框保存在工作内存中的想法,并以某种方式在R和Python之间传递对象,而无需通过写入和读取文件的i / o过程。我在网上搜索过但没有找到合适的解决方案。我正在检查这里是否有人有这种项目的经验或任何其他类型的建议。到目前为止,我发现最接近的是将Python和R脚本组合成一个笔记本/降价样式脚本,能够解释R和Python代码,但是我正在寻找一种能够使脚本更加模块化的解决方案。任何建议,将不胜感激。谢谢!