Question

我想找到模板并从大量调查数据中提取有用信息。数据在.xlsx电子表格中排序，其中4列对应于特定问题，每行都填写了来自受访者的文本回复。

如何使用python和openpyxl从数据中提取模式，例如单词或短语的频率，四个问题的答案之间的连接，或者我应该寻找的任何其他内容？

我在数据/文本挖掘方面经验有限，所以如果有一些文档，有用的教程或其他StackOverflow问题我应该看一下，请告诉我。我在这里和其他地方进行了大量的搜索，但是我找不到我想要的东西。

到目前为止，我已根据调查问题对单词频率进行了拍摄，但事实证明难以浏览openpyxl文档以执行此类操作。在python中有一种简单的方法吗？

样本数组[600x4]：

    [['this is an example of an answer to question 1 by respondent 1', 'answer to Q2 by R1', 'ans to Q3 by R1', 'ans to Q4 by R1']
    ['ans to Q1 by R2', 'ans to Q2 by R2', 'ans to Q3 by R2', 'ans to Q4 by R2']
    [etc, etc, etc, etc...]]

Answer 1

Excel文件格式不是特别适合这种任务。您可以更好地将文件中的数据复制到更适合任务的工具中，例如带有全文搜索的关系数据库，或者可能是专门的文本引擎。

openpyxl是专为操作Excel文件而设计的库。因此，在这种情况下，它可以帮助您提取数据并将其传递给另一个应用程序。

从调查文本中查找模式和有用信息[xlsx]

1 个答案: