我碰巧知道Tika,从文字提取中非常有用:
卷曲www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text
但有没有办法用它将Ms Word文件转换为XML / HTML?
答案 0 :(得分:1)
是的,它涉及更改命令中的4个字符!
如果您运行java -jar tika-app-1.3.jar --help
,您将获得以:
usage: java -jar tika-app.jar [option...] [file|port...]
Options:
-? or --help Print this usage message
-v or --verbose Print debug level messages
-V or --version Print the Apache Tika version number
-g or --gui Start the Apache Tika GUI
-s or --server Start the Apache Tika server
-f or --fork Use Fork Mode for out-of-process extraction
-x or --xml Output XHTML content (default)
-h or --html Output HTML content
-t or --text Output plain text content
-T or --text-main Output plain text content (main content only)
-m or --metadata Output only metadata
.....
通过它,您会看到如果您将--text
选项更改为--html
或--xml
,您将获得格式良好的XML而不仅仅是纯文本
答案 1 :(得分:1)
尽管已经回答了这个问题,但由于op用java标记标记了问题,为了完整性,我将添加引用以便在java中轻松查看如何执行此操作。
来自Tika的单元测试的TikaTest.java超类是使用 getXML method.将单词转换为html的最简单的参考。遗憾的是他们在编写单元测试时看到了这样的API的有用性,但是选择不将它作为一个方便的工具公开,迫使每个人处理处理程序等,这是常见用例的不幸样板。