应用错误收集

我有一个Java jar应用程序，该应用程序读取pdf文件并提取内容并保存到目标文件夹中。我必须使用Spark利用分布式环境在Hadoop集群上执行此jar文件。我的源文件在hdfs上，目标文件也在hdfs上。

如何从pyspark应用程序中使用此jar？任何线索/模板将不胜感激。

注意：我可以从本地目录执行此jar'

java -jar ....本地位置（工作正常）

如果我想从hdfs位置读取源，则不会读取。我搜索并找到了创建spark上下文/ spark会话等所需的信息...

此外，我能够使用pyspark应用程序读取hdfs位置，但是如何将jar文件嵌入应用程序中，或者如何在pyspark应用程序中执行java jar文件？