将MS Word文档章节提取到SQL数据库记录?

时间:2011-09-22 16:18:27

标签: sql ms-word

我有300多页的单词文档,其中包含数百个“章节”(由标题格式定义),目前用词索引。每章包含中等数量的文本(通常少于一页),也可能包含一两个相关的图形。我想将文档拆分成数据库记录,以便在iPhone程序中使用 - 每一章都是一个由标题,id#和内容字段组成的记录。我还没有决定是否要将图片作为单独的字段(可能只包含文件名),或内容文本中的HTML或类似样式链接。在任何情况下,最终结果是我可以显示一个可搜索的标题表,用户可以点击它来提取任何给定的条目。

我目前遇到的困难是从单词文档到数据库。我怎样才能最容易地将文档按章分割成记录,同时保持图像关联?我想在每章之间插入一些独特的字符,保存为文本格式,然后编写一个脚本来根据该字符将文档解析成数据库,但我不确定我是否可以在这种情况下处理图形。其他选择?

1 个答案:

答案 0 :(得分:3)

回答我自己的问题:

给出一个相当简单的格式化文档

  1. 将其转换为Open Office XML文档

  2. 编写一个python脚本,使用xml.sax python模块将文档解析为数据库。

  3. 图像以HTML格式插入记录,以使用Web界面显示。