标签: pandas dataframe pyspark
我遇到了一些问题,我使用了pandas数据框和正则表达式来解决它,以按索引查找特定的行。 但是我使用亚马逊胶作为宿主,不支持熊猫,所以我使用了spark,但是收集功能花费了太多时间。 如何让Spark仅使用一个节点来获得更好的性能和更快的结果?