嵌入式门中的Apache Tika

时间:2014-03-14 15:26:44

标签: apache pdf apache-tika gate

所以我需要为我的门嵌入式应用加载pdf文档。我尝试使用apache tika将pdf解析为字符串,但是门的ANNIE工具无法在字符串中查找注释。 我听说过tikaformat,但找不到任何使用的例子。

有人会成功加载tikaformat或pdf文档的例子吗?

1 个答案:

答案 0 :(得分:1)

我觉得我回答这个问题已经太迟了但是我将来的任何人都有同样的问题答案

首先使用Tika提取任何文件类型的内容

   File file = new File("file path");
   //parse method parameters
   Parser parser = new AutoDetectParser();
   BodyContentHandler handler = new BodyContentHandler();
   Metadata metadata = new Metadata();
   FileInputStream inputstream = new FileInputStream(file);
   ParseContext context = new ParseContext();
   //parsing the file
   parser.parse(inputstream, handler, metadata, context);
初始化Gate Gate.init();

   Corpus corpus = Factory.newCorpus("SegmenterCorpus");
   Document document = Factory.newDocument(handler.toString());// **handler from tika parser to extract the content of a document** 
   corpus.add(document); 
   pipeline.setCorpus(corpus); 
   pipeline.execute();

有关如何使用Tika的更多信息,您可以看到TIKA Tutorial 它非常有用并且学习如何逐步使用tika