python - Pyspark具有用于SQL引擎的中等大小的文件

我有一个用例，我的文件大小可能会变化到10GB。我厌倦了使用熊猫并且由于内存限制而无法进行验证，现在我通过pyspark dataframe sql引擎解析并在内存中执行了一些类似SQL的语句，以在进入数据库之前进行验证。 pyspark sql引擎可靠吗？还是有任何方法可以使用熊猫或任何其他模块来做到这一点。我看到不建议将spark用于少量数据ID。

我对python完全陌生。请帮助我理解并适应我的用例。

Pyspark具有用于SQL引擎的中等大小的文件

0 个答案: