标签: python pandas pyspark pyspark-sql
我有一个用例,我的文件大小可能会变化到10GB。我厌倦了使用熊猫并且由于内存限制而无法进行验证,现在我通过pyspark dataframe sql引擎解析并在内存中执行了一些类似SQL的语句,以在进入数据库之前进行验证。 pyspark sql引擎可靠吗?还是有任何方法可以使用熊猫或任何其他模块来做到这一点。我看到不建议将spark用于少量数据ID。
我对python完全陌生。请帮助我理解并适应我的用例。