标签: python pandas
这是我试图解决的用例
1 即可。我从一个弹性搜索数据库查询数据并准备一个可能有近5000万行和15个字段的CSV。
2. 有一个字段是ID类型的数据。我需要从上面的数据集中提取不同的ID,在RDBMS中查询每个ID,获取值并将其合并到上面的集合中。
3。现在,在此记录集上,我需要计算某些参数。
4. 目前我使用Python Pandas执行此操作。我所看到的问题是它耗费了大量的时间,而且它也占用了很多内存。
有人可以建议一个解决方案,以更快,更有效的方式做到这一点吗?