我的任务是为Rails应用程序实现基于黑名单的亵渎过滤器。我知道基于黑名单的过滤有很多问题,但我的决定是在我的头上做出的。挑战:我正在寻找一个很好的西班牙亵渎名单,以便进入过滤器。对于英语,我们建立在列表上,该列表详尽地列出了每个文本文件的一行/多个/等等。这样的列表是否存在于西班牙语的公共领域?
答案 0 :(得分:1)
找到好的清单并让它们调整是很困难的。这听起来像你正在进行大量可以自动化的手动工作(即结合)。我为我公司的profanity filter named CleanSpeak做了很多这样的事情,其中大部分可以使用单词的POS标识符自动完成,在很多情况下你可以手动进行POS标记或查找POS源。
您还需要考虑列表的质量以及过滤器的上行和管理。很多人认为这很简单,然后意识到防止假阳性是非常困难的。
所有这一切,我们发现我们的大多数其他语言的列表很难通过网络获得,并最终支付了许多其他公司建造或购买的。我们在网上找到的列表在我们翻译后几乎毫无价值。我们还尝试取出黑名单并将其翻译,这是一个彻底的失败,因为大多数英语亵渎在其他语言中没有等同物。我建议购买清单或与当地大学的学生一起制作清单。我们的一些客户发现这种方法相对较好而且价格也不贵。
我还建议您查看一些定义管理用户生成内容的最佳方法的资源。这些将有助于指导您完成任何构建与购买决策。