我有10个大数据集,我的python代码将这些数据加载为pandas数据框,并对其进行预处理以生成最终的csv文件。我在每个数据框中都有一个列类别。早些时候,我运行了1个类别,并且能够在大约10分钟内运行我的整个文件。但是现在,我正在研究23个类别。当我现在尝试运行代码时,这会花费大量时间。
我有一个包含30个主机的EMR集群。我可以将我的数据集分为23个文件,例如每个数据集,第一个数据集就像- first_dataset_category_1,first_dataset_category_2。 这样,我将所有数据集划分为这些类别。 有没有办法,我可以在主机上独立运行每个类别并存储输出。 以后,我可以将所有23个输出合并为1。
注意-我所有的代码都是使用Pandas编写的,因此我无法直接将其移植到spark中,我尝试使用dask,但仅读取数据花费了太多时间。
有人知道我该如何解决我的问题吗?