使用Java库从ODT文档中提取字段

时间:2012-04-02 12:38:39

标签: java parsing field data-extraction odt

我需要使用Java库(或代码)从ODT文档的内容中提取字段标记。我知道odt是某种压缩文件,它的内容在一个content.xml文件中。当然我可以解压缩文件,打开content.xml并解析它,但我相信存在一些更高级别的代码。仅作为示例,内容如下所示:

<text:p text:style-name="Standard">Hi ${name}!</text:p>    
<text:p text:style-name="Standard">
<text:text-input text:description="JOOScript">$nome</text:text-input></text:p>

我想将字段解压缩为$ {name}和$ nome。

我知道Apache Tika可以用于此,但我没有发现实际显示字段提取的示例。我相信这是因为我使用的字段是非结构化文本而不是输入字段标记。

提前致谢, 丹尼尔

1 个答案:

答案 0 :(得分:2)

好吧,以防万一有人感兴趣,我们最终使用Apache Tika从odt获取内容,我们使用以下正则表达式解析它:

\$\{[\w\-\.]*\}