Tika - 如何从PDF文本中提取文本:下划线,突出显示,划掉

时间:2012-09-09 18:01:14

标签: pdf text markup apache-tika

我正在使用Tika *来解析PDF文件。 检索文档的文本没有问题,但我不知道如何提取文本:

  • 下划线
  • 突出显示
  • 划掉

Adob​​e Writer为您提供了不同的文本编辑选项,但我无法看到它们被“隐藏”的位置。

是否有提取这些元数据信息的解决方案? (下划线,高亮......)

你知道Tika是否能够提取这些数据吗?

* HTTP://tika.apache.org/

1 个答案:

答案 0 :(得分:2)

哇。 4年是等待答案的很长时间,我认为你现在已经找到了解决方案。无论如何,为了那些访问此链接的人,答案是肯定的。 Apache Tika不仅可以提取文档中的文本,还可以提取格式(例如粗体,斜体)。这是我的情景:

    //inputStream is the document you wish to parse from.

    AutoDetectParser parser = new AutoDetectParser();
    ContentHandler handler = new BodyContentHandler(new ToXMLContentHandler());
    Metadata metadata = new Metadata();

    parser.parse(inputStream,handler,metadata);
    System.out.println(handler.toString());

print语句打印文档的XML。通过一些清理XML(实际上是HTML标签)的工作,您将留下像<这样的标签。 b> text< / B个粗体文字和< i> text< / i>用斜体文字。然后你可以找到一种渲染方法。祝好运。