从pyspark / spark应用程序执行的Java jar文件

时间:2018-11-02 13:56:34

标签: java python apache-spark jar pyspark

我有一个Java jar应用程序,该应用程序读取pdf文件并提取内容并保存到目标文件夹中。我必须使用Spark利用分布式环境在Hadoop集群上执行此jar文件。我的源文件在hdfs上,目标文件也在hdfs上。

如何从pyspark应用程序中使用此jar?任何线索/模板将不胜感激。

注意:我可以从本地目录执行此jar'

  

java -jar ....本地位置(工作正常)

如果我想从hdfs位置读取源,则不会读取。我搜索并找到了创建spark上下文/ spark会话等所需的信息...

此外,我能够使用pyspark应用程序读取hdfs位置,但是如何将jar文件嵌入应用程序中,或者如何在pyspark应用程序中执行java jar文件?

0 个答案:

没有答案