从调查文本中查找模式和有用信息[xlsx]

时间:2015-10-06 16:56:04

标签: python excel data-mining openpyxl text-analysis

我想找到模板并从大量调查数据中提取有用信息。数据在.xlsx电子表格中排序,其中4列对应于特定问题,每行都填写了来自受访者的文本回复。

如何使用python和openpyxl从数据中提取模式,例如单词或短语的频率,四个问题的答案之间的连接,或者我应该寻找的任何其他内容?

我在数据/文本挖掘方面经验有限,所以如果有一些文档,有用的教程或其他StackOverflow问题我应该看一下,请告诉我。我在这里和其他地方进行了大量的搜索,但是我找不到我想要的东西。

到目前为止,我已根据调查问题对单词频率进行了拍摄,但事实证明难以浏览openpyxl文档以执行此类操作。在python中有一种简单的方法吗?

样本数组[600x4]:

    [['this is an example of an answer to question 1 by respondent 1', 'answer to Q2 by R1', 'ans to Q3 by R1', 'ans to Q4 by R1']
    ['ans to Q1 by R2', 'ans to Q2 by R2', 'ans to Q3 by R2', 'ans to Q4 by R2']
    [etc, etc, etc, etc...]]

1 个答案:

答案 0 :(得分:1)

Excel文件格式不是特别适合这种任务。您可以更好地将文件中的数据复制到更适合任务的工具中,例如带有全文搜索的关系数据库,或者可能是专门的文本引擎。

openpyxl是专为操作Excel文件而设计的库。因此,在这种情况下,它可以帮助您提取数据并将其传递给另一个应用程序。