我在另一个帖子上发布了以下问题:
“有没有人知道可以从php使用的一个好的解决方案,它可以有效地删除联系信息,如电话号码,电子邮件地址,甚至可能从文档中联系地址?”
我很快就告诉了我怀疑的事情......我问的太多了:)。
所以现在我正在寻找替代解决方案。我正在考虑使用亚马逊的Mechanical Turk来删除联系信息。
那么两个问题?
答案 0 :(得分:2)
结帐http://www.microtask.com。 (我不隶属于这家公司。)
您可以使用正则表达式构建一个宽网,然后让人工筛选出真实的地址,电话号码和电子邮件地址。 “这样的”是一个地址,电话号码或电子邮件地址对于人来说是一个相当简单的问题。
由于他们将表格剪下来(或说他们这样做 - 我没有使用过),你没有那么多担心隐私问题,或者可能能够证明他们的合理性。如果MicroTask拥有数百个客户端,那么他们能够做的就是将所有的微任务放在一个巨大的漏斗中,随机化每个工人看到的漏斗。因此,他们几乎可以保证工人几乎没有办法将他们工作的任何敏感信息联系起来。每个工人每天都会看到数以千计的独立信息。在这些情况下,谁能够在第1天辨别出任务347的电子邮件地址与第3天的任务1133相对应?即使他们可以,也不值得他们这样做。他们可能只是按照他们的要求赚更多的钱。