坏词过滤,没有坏词

时间:2019-03-21 15:15:11

标签: nlp bloom-filter

我需要一个没有坏词的“坏词”过滤器,因为我不想在我的系统上有一个坏词列表。我在想,最简单的方法是使用布隆过滤器(Bloom Filter)来存储一组不良词中的SHA1。我还应该考虑其他方法吗?

1 个答案:

答案 0 :(得分:0)

为此使用Bloom过滤器效果很好。对于误报的可能性,应使用相对较低的值,例如p = 0.000001(0.0001%的误报)。

SHA-1:对于大多数用途,它不必为SHA-1。计算SHA-1哈希值相对较慢,尤其是当您有很多内容需要哈希时。 (请记住,您必须分别对每个单词进行哈希处理。)相反,您可以使用Murmur哈希(例如)。这样,哈希处理要快得多。如果您担心有人故意进行哈希冲突(为什么我不能说为什么有人这样做),则应将种子保密。也许可以使用SipHash等更强大的功能(因为Murmur哈希不是为安全而设计的。)