使用Apache Tika对XML / HTML进行MSword

时间:2013-04-09 20:06:48

标签: java apache-tika

我碰巧知道Tika,从文字提取中非常有用:

卷曲www.vit.org/downloads/doc/tariff.doc \   | java -jar tika-app-1.3.jar --text

但有没有办法用它将Ms Word文件转换为XML / HTML?

2 个答案:

答案 0 :(得分:1)

是的,它涉及更改命令中的4个字符!

如果您运行java -jar tika-app-1.3.jar --help,您将获得以:

开头的内容
usage: java -jar tika-app.jar [option...] [file|port...]

Options:
  -?  or --help          Print this usage message
  -v  or --verbose       Print debug level messages
  -V  or --version       Print the Apache Tika version number

  -g  or --gui           Start the Apache Tika GUI
  -s  or --server        Start the Apache Tika server
  -f  or --fork          Use Fork Mode for out-of-process extraction

  -x  or --xml           Output XHTML content (default)
  -h  or --html          Output HTML content
  -t  or --text          Output plain text content
  -T  or --text-main     Output plain text content (main content only)
  -m  or --metadata      Output only metadata
.....

通过它,您会看到如果您将--text选项更改为--html--xml,您将获得格式良好的XML而不仅仅是纯文本

答案 1 :(得分:1)

尽管已经回答了这个问题,但由于op用java标记标记了问题,为了完整性,我将添加引用以便在java中轻松查看如何执行此操作。

来自Tika的单元测试的TikaTest.java超类是使用 getXML method.将单词转换为html的最简单的参考。遗憾的是他们在编写单元测试时看到了这样的API的有用性,但是选择不将它作为一个方便的工具公开,迫使每个人处理处理程序等,这是常见用例的不幸样板。