我正在用Apache Tika做一些测试。目标是将复杂的Word文档(几页文本,表格,图像,具有多级缩进的项目符号列表)转换为xhtml,保留尽可能多的信息/样式。
我在官方网站上发现了这个开箱即用的例子。它发挥了作用,但有很多局限性:
<p class="list_Paragraph">· first element of the list</p>
而不是<ul><li>first element of the list</li>....
并且缩进级别会丢失。<smallHeading>
而不是<h3>
)第4点可能需要实施一个提取器(从我在其他帖子中找到的),但是有可能达到前3点吗?我们是在谈论一些设置/扩展示例解析器/处理程序还是必须从头开始实现所有内容?建议?
非常感谢。
public String parseToHTML() throws IOException, SAXException, TikaException {
ContentHandler handler = new ToXMLContentHandler();
AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
try (InputStream stream = ContentHandlerExample.class.getResourceAsStream("test.doc")) {
parser.parse(stream, handler, metadata);
return handler.toString();
}
}