标签: pdf apache-tika
我对Apache Tika还是陌生的,他试图弄清楚如何使用它。
我想从docx / pdf文件中提取文本,并将提取的文本解析/映射到特定字段并将其显示为节点。
可以使用Apache Tika完成此操作吗?它确实声明了从不同文档类型中提取文本的方法,但是,我找不到有关如何将提取的文本解析/映射到不同字段的参考。
请告知。
谢谢