应用错误收集

我正在寻找一种能够从更长的字符串生成短（fx 16个字符（不重要）哈希码/摘要的算法。

主要要求是几乎相同的字符串应该产生相同的摘要。

Fx 2几乎相同的邮件：

嗨马丁。这里有一些...垃圾邮件给你。关心XYZ。 =＆GT; AAAA AAAA AAAA AAAA

嗨博。这里有一些...垃圾邮件给你。关心EFG。 =＆GT; AAAA AAAA AAAA AAAA

返回相同的消化（或几乎相同），作为不同的邮件：

你好Finn。这是一封测试邮件。 =＆GT; CCCC CCCC CCCC CCCC

将返回不同的摘要。

此算法将成为垃圾邮件过滤器的一部分。过滤器将记住邮件中的摘要，它肯定是垃圾邮件。如果相同的摘要显示在有疑问的邮件中，相同的摘要将导致过滤器增加spamscore。

我知道Levenshtein，但它要求我先了解弦乐。在这种情况下，我没有这方面的信息。我可以获得这些信息，但这需要过滤器来存储所有垃圾邮件并检查每个邮件，这将是一个非常缓慢的过程。

也许一些松散的压缩算法加上两者之间Levenshtein距离的计算可以起作用。

任何指示赞赏。