Question

我需要使用Java库（或代码）从ODT文档的内容中提取字段标记。我知道odt是某种压缩文件，它的内容在一个content.xml文件中。当然我可以解压缩文件，打开content.xml并解析它，但我相信存在一些更高级别的代码。仅作为示例，内容如下所示：

<text:p text:style-name="Standard">Hi ${name}!</text:p>    
<text:p text:style-name="Standard">
<text:text-input text:description="JOOScript">$nome</text:text-input></text:p>

我想将字段解压缩为$ {name}和$ nome。

我知道Apache Tika可以用于此，但我没有发现实际显示字段提取的示例。我相信这是因为我使用的字段是非结构化文本而不是输入字段标记。

提前致谢，丹尼尔

Answer 1

好吧，以防万一有人感兴趣，我们最终使用Apache Tika从odt获取内容，我们使用以下正则表达式解析它：

\$\{[\w\-\.]*\}

使用Java库从ODT文档中提取字段

1 个答案: