我的任务是从数百个人类可读文档(主要是MS Word)中提取一些结构化信息并将其放入数据库中。数据几乎嵌入整个文档的表格中,但表格之间有很多文本,尽管文档结构非常相似,但存在一些差异。文档经常更改(我们每隔几个月就会获得一个更新版本)
到目前为止,我能想到的唯一可行的选择是手动浏览所有文档并插入/更新信息,但我想我会问这里是否有人认为以某种方式刮取文件是可能的?
哦,数据必须相当正确......
答案 0 :(得分:2)
我使用converter from RTF to FO做了类似的工作(虽然没有表格)。
您已将文档转换为RTF,然后转换为FO,这为您提供了一个很好的文档XML结构。然后,您可以轻松地解析它并刮取数据。