如何将邮件主题行集群到邮件线程?

时间:2013-02-28 08:56:17

标签: email search cluster-analysis hierarchical-clustering

如果我只有主题行的邮件(没有其他标题)是否有一个好的算法(或包)将它们聚合成一组“相关消息”?

主题为

的邮件
  • Our travel plans

可能与

有关
  • Re: Our travel plans
  • Re: Re: Our travel plans

到目前为止一直很好,但也有

  • AW: Our travel plans
  • Fwd: Our travel plans
  • Our travel plans (Forward)

我想将群集所有这些一起整合到一个线程中。当然,具有plansRe: Our meeting等主题的邮件不应该在该主题中。我可以很好地实现分层结果 - 实际上,我有点像那样,因为我希望有相似内容的邮件有机会彼此“接近”。

所以,我有很多想法:后缀匹配,前缀树,Levensthein距离,Q-Gram配置文件 - 可能太多了。所以我问自己:“有没有人这样做过?”

1 个答案:

答案 0 :(得分:2)

对于序列比较,我使用Open Refine(以前称为Google Refine)来尝试聚类算法来微调和识别要使用的算法。它包括密钥冲突(指纹,ngram和双互联网电话)和最近邻居(levenshtein距离和通过部分匹配预测(PPM))。

https://github.com/OpenRefine/OpenRefine/wiki/Installation-Instructions

导入数据后,只需使用构面进行群集即可。

方面>文字方面>群集