我有一套训练数据,包括20个多项选择题(A / B / C / D),由100名受访者回答。答案纯粹是绝对的,不能缩放到数值。其中50名受访者被选中进行免费产品试用。选择过程尚不清楚。可以从这些信息中挖掘出哪些有趣的知识?
以下列出了我迄今为止所提出的内容 -
您能想到可以执行的任何其他有趣的分析或数据挖掘活动吗?
由于反应无法量化/可评分,因此可以消除相关性等常见嫌疑。
我的方法是否正确?
答案 0 :(得分:2)
这是一种逆向工程。
对于每位受访者,您有20个答案和一个标签,表明该受访者是否接受了产品试用。
您想知道20个问题中的哪一个对give trial or not
决定至关重要。我建议你首先在训练数据上建立一个决策树模型。并仔细研究树以获得一些见解,例如低级决策节点包含最多的判别问题。
答案 1 :(得分:1)
为了分析目的,可以将答案设为数字,例如:
RespondentID IsSelected Q1AnsA Q1AnsB Q1AnsC Q1AnsD Q2AnsA...
12345 1 0 0 1 0 0
Q3AnsC + Q8AnsB - > IsSelected
使用分类(例如逻辑回归或决策树)来模拟用户的选择方式。
使用群集。是否有不同的受访者群体?他们在哪些方面有所不同?使用“elbow”或scree方法确定簇的数量。
您是否有其他有关受访者的信息,例如受众特征?在这种情况下,数据透视表会很好。
是否缺少数据?是否存在人们跳过问题的模式?