标签: apache-pig pdf-parsing pig-udf
我有100个pdf,但每个pdf有40页,即它没有被处理。实际上,我们正在尝试使用猪Udf ??我们能否使用Pig Udf ??
答案 0 :(得分:0)
没有。虽然我对Pig并不熟悉,但它本身并不理解PDF文件格式,而是用于存储和分析数据,而不是用于处理文件。
您可以将Pig与另一个理解PDF的库结合使用以分割PDF,虽然拆分PDF不是Pig的要求,但这一切都取决于使用Pig的工作流程/目的。