我正在使用Tika *来解析PDF文件。 检索文档的文本没有问题,但我不知道如何提取文本:
Adobe Writer为您提供了不同的文本编辑选项,但我无法看到它们被“隐藏”的位置。
是否有提取这些元数据信息的解决方案? (下划线,高亮......)
你知道Tika是否能够提取这些数据吗?
* HTTP://tika.apache.org/
答案 0 :(得分:2)
哇。 4年是等待答案的很长时间,我认为你现在已经找到了解决方案。无论如何,为了那些访问此链接的人,答案是肯定的。 Apache Tika不仅可以提取文档中的文本,还可以提取格式(例如粗体,斜体)。这是我的情景:
//inputStream is the document you wish to parse from.
AutoDetectParser parser = new AutoDetectParser();
ContentHandler handler = new BodyContentHandler(new ToXMLContentHandler());
Metadata metadata = new Metadata();
parser.parse(inputStream,handler,metadata);
System.out.println(handler.toString());
print语句打印文档的XML。通过一些清理XML(实际上是HTML标签)的工作,您将留下像<这样的标签。 b> text< / B个粗体文字和< i> text< / i>用斜体文字。然后你可以找到一种渲染方法。祝好运。