我一直在使用以下代码在Hadoop中使用pdfbox jar:
$ hadoop jar pdfbox-app-2.0.9.jar PDFReader /user/hduser/input_pdf_220618/R_Studio_Keyboard_tips.pdf pdf_output
但是我遇到以下错误:
PDFBox version: "2.0.9" Usage: java -jar pdfbox-app-x.y.z.jar <command> <args..>
可能的命令是:
ConvertColorspace
Decrypt
Encrypt
ExtractText
ExtractImages
OverlayPDF
PrintPDF
PDFDebugger
PDFMerger
PDFReader
PDFSplit
PDFToImage
TextToPDF
WriteDecodedDoc
请指导我如何在HDFS中使用pdfbox