如果我只有主题行的邮件(没有其他标题)是否有一个好的算法(或包)将它们聚合成一组“相关消息”?
主题为
的邮件Our travel plans
可能与
有关Re: Our travel plans
和Re: Re: Our travel plans
。到目前为止一直很好,但也有
AW: Our travel plans
Fwd: Our travel plans
Our travel plans (Forward)
我想将群集所有这些一起整合到一个线程中。当然,具有plans
,Re: Our meeting
等主题的邮件不应该在该主题中。我可以很好地实现分层结果 - 实际上,我有点像那样,因为我希望有相似内容的邮件有机会彼此“接近”。
所以,我有很多想法:后缀匹配,前缀树,Levensthein距离,Q-Gram配置文件 - 可能太多了。所以我问自己:“有没有人这样做过?”
答案 0 :(得分:2)
对于序列比较,我使用Open Refine(以前称为Google Refine)来尝试聚类算法来微调和识别要使用的算法。它包括密钥冲突(指纹,ngram和双互联网电话)和最近邻居(levenshtein距离和通过部分匹配预测(PPM))。
https://github.com/OpenRefine/OpenRefine/wiki/Installation-Instructions
导入数据后,只需使用构面进行群集即可。
方面>文字方面>群集