我有一个PySpark应用程序,该应用程序使用wholeTextFiles()
处理文件夹中的文件。此应用程序可以由Spark Submit执行。
现在,我喜欢使用同一应用程序来处理大约一百万个存储在不同文件夹中的文件。
应用程序必须以并行方式而不是批处理方式处理这些文件。
尽管我使用的是parallelize()
方法,但是对于如此大量的文件使用它还是很怀疑。
如果您建议并行化PySpark作业的最佳方法,将很有帮助。
我对Spark有一些疑问。
仅增加执行程序数量会有所帮助,还是出于相同的目的我必须编写多线程应用程序?
当前我仅使用本地模式。 群集设置是否可以提高性能?
正在等待您的建议...