我是Spark的新手,我正在尝试阅读&我尽可能地研究。目前我被困在这上面,我花了几天时间来解决。我已经在3台机器(1个主机,2个从机)上成功建立了Spark Clusters并运行了一些示例。现在我正在尝试编写一个Python应用程序,它将读取csv文件,然后将每行分成JSON文件并将所有这些行上传到S3。这是我的问题:
我已使用SparkSession.read.csv()
将csv转换为Spark DataFrame,如何将此DataFrame拆分为多行并转换为JSON?我已经读过Spark DataFrame有toJSON函数,但它适用于整个DataFrame,那么如何在DataFrame的每一行上使用thi函数而不是整行呢?
如何在我的应用程序中应用分布式系统,假设我有2个奴隶和一个主人?或者我的应用程序是否自动将工作拆分为较小的部分并分配给从属设备?
如何将转换后的JSON放到S3中,一些示例代码指南可以帮助我。
如果您能帮助我,我将非常感激,感谢您的帮助。