sc.Parallelize无法从列表中提供的所有文件夹中下载文件。

时间:2018-10-03 18:12:01

标签: amazon-s3 pyspark amazon-emr

我正在使用kafka connect存储从kafka到s3的所有事件。然后我正在使用emr spark作业读取s3中的文件,但将使用

从s3中读取所有对象
start cmd /k java -jar slave.jar -jnlpUrl http://jenkinsurl:8080/jenkins/computer/Selenium%20Slave/slave-agent.jnlp -secret secretkey

它只是从partition = 0读取而跳过其他分区,尽管我尝试搜索网络的那些分区中存在文件,但找不到解决此问题的任何帮助。如果我在这里做错了什么,可以帮忙。

谢谢。

0 个答案:

没有答案