我有一个Java jar应用程序,该应用程序读取pdf文件并提取内容并保存到目标文件夹中。我必须使用Spark利用分布式环境在Hadoop集群上执行此jar文件。我的源文件在hdfs上,目标文件也在hdfs上。
如何从pyspark应用程序中使用此jar?任何线索/模板将不胜感激。
注意:我可以从本地目录执行此jar'
java -jar ....本地位置(工作正常)
如果我想从hdfs位置读取源,则不会读取。我搜索并找到了创建spark上下文/ spark会话等所需的信息...
此外,我能够使用pyspark应用程序读取hdfs位置,但是如何将jar文件嵌入应用程序中,或者如何在pyspark应用程序中执行java jar文件?