我正在尝试使用贝叶斯算法在Java中创建垃圾邮件过滤器。
我使用包含电子邮件的文本文件,并使用正则表达式拆分标记,将这些值存储到散列图中。
我的问题是,使用正则表达式,电子邮件地址是分开的,而不是: johnsmith@example.com
正则表达式导致令牌为: 约翰 工匠 示例
对于ip地址也是如此,例如,而不是: 192.55.34.322
正则表达式将标记拆分为: 192 55 34 322
那么有人知道我可以阅读电子邮件并按原样存储其内容的方式吗?
修订:我正在使用不保留IP地址或电子邮件地址的正则表达式。它把它们分开了。
我想知道正则表达式是不是可行的方法,如果我可以为我提出任何替代方案,以便能够过滤电子邮件以挑选出我想要的特征。
答案 0 :(得分:0)
在标记之前,找到一种将电子邮件正文与标题信息分开的方法。