如何计算定性调查答案的投票数

时间:2012-07-09 16:01:21

标签: survey search-suggestion

我们正在为一个客户创建一个网站,该网站希望网站能够根据人们“十大喜爱的东西”进行调查。每个用户必须回答10个问题,例如“你最喜欢的颜色是什么”,“谁是你最喜欢的名人”等,然后将结果整理成主页上的全球十大名单。

难题在于允许用户输入他们想要的任何内容,例如:他们最喜欢的度假目的地可能是'奶奶家',并且能够准确地准确计算投票数,例如:用户A可能会说他们最喜欢的名人是“女王”而用户B可能会说它是“英国女王” - 我们需要将这两个答案计算为同一“事物”的两票。

如果我们强制用户从每个问题的大但预定的列表中进行选择,则会限制用户将字面意义定义为“最喜欢的东西”的能力。然而,如果我们有一个纯文本输入字段并尝试在提交后解释答案,那么在相同答案的名称或拼写有变化的情况下计算投票会更加困难。

是否可以通过某种形式的搜索短语建议引擎实时自动调整答案?如果输入法是纯文本字段,我们如何确保拼写的变化?

如果有人对此功能的可能解决方案有任何想法,可能是一个软件,一个插件,一个API,任何东西,那么请告诉我们。

谢谢你,请你澄清一下。

3 个答案:

答案 0 :(得分:0)

如果你想自动计算“女王”和“英国女王”,那么你的工作可能比“有趣的小调查”更复杂。如果音量足够轻,请考虑手动计算结果。只是为了给你一种感觉,如果有人进入“瑞典女王”或“Queen Letifah音乐会”会怎么样?

如果您真的想沿着这条路走下去,请查看自然语言处理(NLP)。具体来说,是分类领域。

有关NLP的一般介绍,我推荐相关的维基百科文章

http://en.wikipedia.org/wiki/Natural_language_processing

RapidMiner是一个值得研究的开源NLP解决方案。

答案 1 :(得分:0)

正如Eric J所说,这是进入最前沿的NLP应用程序。这些研究领域对于人工智能/自动化研究人员和计算机科学来说非常重要,但仍然非常重要。您可以使用许多程序和算法,其缺点和好处非常广泛。 RapidMiner很好,WordNet广泛用于医疗应用,应该相对容易调整到你自己的语料库,还有更先进的方法,如潜在的Dirichlet分配。以下是您应该开始使用的一些资源(除了上面提供的维基百科文章)

http://www.semanticsearchart.com/index.html

http://www.mitpressjournals.org/loi/coli

http://marimba.d.umn.edu/(尝试SenseClusters计算器)

http://wordnet.princeton.edu/

答案 2 :(得分:0)

最好将简短答案分类为k-means clustering。你需要应用词干。然后你需要使用基本字典将单词转换为索引。您可以使用EverGroingDictionary.cs中的sematicsearchart.com。将短语投入字典后,它将被转换为数字序列或向量。将接近度度量作为单词中的巧合数量引入,并应用k-means,这是快速的algorithmk-means会将所有答案分组。每组中最常见的单词将成为该组的签名。您C++C#Java中的整个计划必须少于1000行。