数据挖掘/分析调查中对多项选择问题的回答

时间:2010-05-24 11:53:41

标签: data-mining analysis survey

我有一套训练数据,包括20个多项选择题(A / B / C / D),由100名受访者回答。答案纯粹是绝对的,不能缩放到数值。其中50名受访者被选中进行免费产品试用。选择过程尚不清楚。可以从这些信息中挖掘出哪些有趣的知识?

以下列出了我迄今为止所提出的内容 -

  • 百分比研究(例子 - 在Qs.5上回答B并被选中进行免费产品试验的人的百分比)
  • 条件概率(示例 - 考虑到他在Qs.5上回答了B,一个人被选中进行免费产品试验的概率是多少)
  • 朴素贝叶斯分类器(可用于预测是否为任何问题子集的一组给定值选择某人)。

您能想到可以执行的任何其他有趣的分析或数据挖掘活动吗?

由于反应无法量化/可评分,因此可以消除相关性等常见嫌疑。

我的方法是否正确?

2 个答案:

答案 0 :(得分:2)

这是一种逆向工程。

对于每位受访者,您有20个答案和一个标签,表明该受访者是否接受了产品试用。

您想知道20个问题中的哪一个对give trial or not决定至关重要。我建议你首先在训练数据上建立一个决策树模型。并仔细研究树以获得一些见解,例如低级决策节点包含最多的判别问题。

答案 1 :(得分:1)

为了分析目的,可以将答案设为数字,例如:

RespondentID  IsSelected  Q1AnsA  Q1AnsB  Q1AnsC  Q1AnsD  Q2AnsA...
12345         1           0       0       1       0       0
  1. 使用关联分析查看答案中是否有模式。
  2. Q3AnsC + Q8AnsB - > IsSelected

    1. 使用分类(例如逻辑回归或决策树)来模拟用户的选择方式。

    2. 使用群集。是否有不同的受访者群体?他们在哪些方面有所不同?使用“elbow”或scree方法确定簇的数量。

    3. 您是否有其他有关受访者的信息,例如受众特征?在这种情况下,数据透视表会很好。

    4. 是否缺少数据?是否存在人们跳过问题的模式?