将Word文档解析为DB以进行分析

时间:2014-08-06 21:26:32

标签: database parsing solr ms-word

因此,此链接上有超过200个文档(http://goo.gl/IdvhMf)每个文档都有来自每个受访者的超过一百页的问题和答案。每份文件都代表一位受访者的答案。我想在数据库中创建一个表(不依赖于任何数据库技术),该表具有类似这样的模式:

受访者|问题编号|回答

例如

<> UBS,1,“我们的意见是......”

然后我可以查询数据库来说fpr示例:“向我展示问答34对受访者A,B,C的所有回复”

之后的步骤可能包括一些针对回复的情绪分析。

那么白天不是程序员的人最好的方法是什么呢?我可以使用任何现成的可配置工具吗?

1 个答案:

答案 0 :(得分:0)

将您的问题分成两部分。

首先是你如何解析文档中的问题和答案对。

将这些存储在数据库中是第二个无关的问题。

解决第一个问题(而不是查看文档),这通常是基于样式(例如问题样式,答案样式),魔术文本(“问题”,“答案”)或格式化来完成的(例如问题是粗体/红色)。如果我可以控制文档的创建,我可能会使用内容控件。

如何在代码中执行此操作在某种程度上取决于您的首选语言,但如果文档采用docx格式(与传统二进制文档格式或RTF相反),则更容易。假设docx格式,大多数语言都有Open XML工具集。