如何以编程方式识别新闻稿

时间:2015-03-25 17:24:59

标签: email

电子邮件中是否有任何有助于识别简报的标题? 我想将邮件归类为个人,简报,垃圾邮件和促销。 有没有可以做到的代码?

我想要一个非机器学习方法来解决这个问题。 轻量级内容分析即可。

1 个答案:

答案 0 :(得分:0)

有各种标题可用于识别邮件列表,但整个问题在某种程度上是一个启发式字段。以下是一些尝试:

  • 常见的邮件列表软件包有自己的标题。即使它们不明确,你也可以快速收集一些Majordomo,Listserv,Mailman,Yahoo Groups(bletch)等列表,并找到典型的标题模式,如果不是标准化的话。
  • 常见和不常见的邮件列表越来越多地支持各种List-Xxx:标头。请参阅http://www.list-unsubscribe.com/
  • 当天,许多邮件列表会设置Precedence: list。切线,另见http://cr.yp.to/immhf.html

请注意,许多垃圾邮件发送者采用了部分或全部这些做法 - 讨厌的mainsleaze垃圾邮件发送者倾向于使用完善的电子邮件软件,就像业务中的任何其他人一样;只是因为他们首先对他们添加到邮件列表中的人不那么歧视。

所有事情都算在内,我不会忽视机器学习方法,如果只是为了帮助你建立一个决策树(并非所有机器学习都是贝叶斯过滤,你知道!)