Question

我正在使用Tika *来解析PDF文件。检索文档的文本没有问题，但我不知道如何提取文本：

下划线
突出显示
划掉

Adobe Writer为您提供了不同的文本编辑选项，但我无法看到它们被“隐藏”的位置。

是否有提取这些元数据信息的解决方案？（下划线，高亮......）

你知道Tika是否能够提取这些数据吗？

* HTTP：//tika.apache.org/

Answer 1

哇。 4年是等待答案的很长时间，我认为你现在已经找到了解决方案。无论如何，为了那些访问此链接的人，答案是肯定的。 Apache Tika不仅可以提取文档中的文本，还可以提取格式（例如粗体，斜体）。这是我的情景：

    //inputStream is the document you wish to parse from.

    AutoDetectParser parser = new AutoDetectParser();
    ContentHandler handler = new BodyContentHandler(new ToXMLContentHandler());
    Metadata metadata = new Metadata();

    parser.parse(inputStream,handler,metadata);
    System.out.println(handler.toString());

print语句打印文档的XML。通过一些清理XML（实际上是HTML标签）的工作，您将留下像＆lt;这样的标签。 b＆gt; text＆lt; / B个粗体文字和＆lt; i＆gt; text＆lt; / i＆gt;用斜体文字。然后你可以找到一种渲染方法。祝好运。

Tika - 如何从PDF文本中提取文本：下划线，突出显示，划掉

1 个答案: