众包可靠性测量 - 垃圾邮件/欺诈检测

时间:2011-08-26 13:50:45

标签: statistics classification gis crowdsourcing fraud-prevention

我想从网站用户处收集某种地理信息 - 对于给定的数据集,他们将标记复选框,指示地点是否已经给予财产。是否有任何工具/框架可用于根据整个选定的数据集(以及可能的其他信息)检测欺诈或垃圾邮件提交?我想获得过滤的,更可靠的数据。

1 个答案:

答案 0 :(得分:2)

不确定这是否正是您所要求的,但以下是我使用亚马逊土耳其人的经验提示:

有几篇学术论文涉及这些问题。 here是个好人。 此外,根据以下一般建议,我创建了一个处理我的数据的自定义过程:

一个。包括一个未解决的问题,并筛选出无法回答的案例。自动回答这样一个问题变得更加困难,对于欺诈者而言,这也可能更耗时,因此吸引力更小。

湾如果可能的话,不要使用二进制标度(即复选框),但要使用某个等级(例如1-4或1-6)。这将为您提供更多数据。

℃。如果可用,请过滤掉填写表单所用时间过短的情况。 (如果你包含那个未解决的问题,特别有用)

d。如果您有每个用户的多种输入,请检查重复的答案,以及持续提供远离平均答案的用户。 如果每个用户只提交一个"表单",请考虑在其中添加多个元素/问题,这样您每个用户就可以获得多个提交。

即如果每个用户或用户ID只有一次提交,则您的选项会受到更多限制。如果你有足够的数据,我可以建议过滤outliars(例如数据点远离平均值3个标准偏差)。

F。在完成所有过滤后,检查数据中的协议或不一致(例如,通过检查数据点的比例是否与平均值相差x个标准差)。如果达成协议,请使用平均值;如有不同意见,请收集更多数据。

希望它有所帮助,