Java垃圾邮件过滤器

时间:2010-04-30 13:19:53

标签: java

我正在尝试使用贝叶斯算法在Java中创建垃圾邮件过滤器。

我使用包含电子邮件的文本文件,并使用正则表达式拆分标记,将这些值存储到散列图中。

我的问题是,使用正则表达式,电子邮件地址是分开的,而不是: johnsmith@example.com

正则表达式导致令牌为: 约翰 工匠 示例

对于ip地址也是如此,例如,而不是: 192.55.34.322

正则表达式将标记拆分为: 192 55 34 322

那么有人知道我可以阅读电子邮件并按原样存储其内容的方式吗?

修订:我正在使用不保留IP地址或电子邮件地址的正则表达式。它把它们分开了。

我想知道正则表达式是不是可行的方法,如果我可以为我提出任何替代方案,以便能够过滤电子邮件以挑选出我想要的特征。

1 个答案:

答案 0 :(得分:0)

在标记之前,找到一种将电子邮件正文与标题信息分开的方法。