应用错误收集

从数百个Word文档中抓取结构化信息？

时间：2010-11-17 08:50:23

标签： database parsing ms-word scrape

我的任务是从数百个人类可读文档（主要是MS Word）中提取一些结构化信息并将其放入数据库中。数据几乎嵌入整个文档的表格中，但表格之间有很多文本，尽管文档结构非常相似，但存在一些差异。文档经常更改（我们每隔几个月就会获得一个更新版本）

到目前为止，我能想到的唯一可行的选择是手动浏览所有文档并插入/更新信息，但我想我会问这里是否有人认为以某种方式刮取文件是可能的？

哦，数据必须相当正确......

1 个答案:

答案 0 :(得分：2)

我使用converter from RTF to FO做了类似的工作（虽然没有表格）。

您已将文档转换为RTF，然后转换为FO，这为您提供了一个很好的文档XML结构。然后，您可以轻松地解析它并刮取数据。