如何使用文本分析来调查问卷调查?

时间:2012-12-09 10:26:02

标签: python statistics computer-science lexical-analysis text-analysis

我是一个学生团队的“程序员”,旨在调查我的文法学校的满意度和一般问题。我们有一个基于1-6的量表构建的问题,我们通过我在python中编写的图表软件来解释这些答案。

现在我们的问号末尾有一个<textarea>,可以根据自己的喜好使用。 我目前正在考虑如何使这些数据可用(我们不想阅读超过800多个答案)。

如何在Python中使用文本分析来调查学生写的内容? 我正想着一种方法来“标记”任何写下来的句子,例如:

I don't like being in school. [wellbeing][negative]
I have way too much homework. [homework][much]
I think there should be more interesting projects. [projects][more]

有没有可行的方法来获得它?使用现有的标记化器是否有意义?

感谢您的帮助!

4 个答案:

答案 0 :(得分:2)

好吧,我只是在这里提出想法......但我能想到的一种方法是,

  1. 使用聚类算法首先聚类响应。像K-means这样的东西 或者您可以使用LDA之类的东西进行主题建模。

  2. 然后,您可以使用标记方法进行文本分析,以便在步骤1中获得的每个群集/主题中生成频繁/相关的关键字。

  3. 为什么第1步是个好主意?嗯,在我看来 - 在进行文本分析时,如果你随意地去标记句子,你可以生成很多标签 - 其中很多标签在上下文中是相似的。因此,您的可用性可能会下降,您仍然需要分析每个句子的标签量。

    使用群集/主题建模可以帮助将上下文问题降低到某种程度。因此,在我看来更有用。

答案 1 :(得分:1)

“NLTK情感分析”是一个开始搜索的好地方。 Natural Language Toolkit是用于在Python中进行文本分析的 包,但它并不简单,因为任务非常复杂。前几个结果有一些引人注目的演示,但我没有详细研究它们。

答案 2 :(得分:1)

我不会完全回答你的问题。但是,如果我理解你有一个经典的调查(带复选框,......),最后有一个小的文本区域问题......

所以你将有大约800多个答案。但我想答案不会太久。通常它会有几行甚至几个字......我认为手动QDA软件会比不完美的算法更好。例如,您可以使用开源RQDA(R项目包)或商业软件,如Nvivio ......

由于

答案 3 :(得分:0)

这听起来很像人工智能编程,只是因为他们“标记”问题和回答的方式。也许看看http://pyaiml.sourceforge.net/和人工智能标记语言。我没有太多的经验,但你可以根据自己的需要进行调整,而不是从头开始。