在GATE中解析字体样式或段落块

时间:2015-10-21 09:28:13

标签: java nlp gate transducer

我有一个word文档。我需要使用GATE匹配它的特定表部分或标题部分。我想如果有任何步骤,我们可以先检查标题的任何字体大小或字体样式,然后匹配其余内容,直到下一个标题模式重复。

1 个答案:

答案 0 :(得分:2)

GATE Apache Tika Apache POI 库提供的 MS Word 文档的支持有限。我不知道任何免费替代方案......我们已经在我的公司为此目的开发了我们自己的插件(gate.DocumentFormat),但现在它不适用于外部。

您可以尝试通过其他工具转换您的Word文档转换为HTML (例如直接使用MS Word,OpenOffice, docx4j 或其他人 - 尝试谷歌docx to html - 你会看到很多结果),然后在GATE中处理HTML文档。您将在Original markups注释集中看到所有格式。