我有300多页的单词文档,其中包含数百个“章节”(由标题格式定义),目前用词索引。每章包含中等数量的文本(通常少于一页),也可能包含一两个相关的图形。我想将文档拆分成数据库记录,以便在iPhone程序中使用 - 每一章都是一个由标题,id#和内容字段组成的记录。我还没有决定是否要将图片作为单独的字段(可能只包含文件名),或内容文本中的HTML或类似样式链接。在任何情况下,最终结果是我可以显示一个可搜索的标题表,用户可以点击它来提取任何给定的条目。
我目前遇到的困难是从单词文档到数据库。我怎样才能最容易地将文档按章分割成记录,同时保持图像关联?我想在每章之间插入一些独特的字符,保存为文本格式,然后编写一个脚本来根据该字符将文档解析成数据库,但我不确定我是否可以在这种情况下处理图形。其他选择?
答案 0 :(得分:3)
回答我自己的问题:
给出一个相当简单的格式化文档
将其转换为Open Office XML文档
编写一个python脚本,使用xml.sax
python模块将文档解析为数据库。
图像以HTML格式插入记录,以使用Web界面显示。