使用电子邮件数据集进行机器学习时是否应忽略电子邮件标题?

时间:2017-10-26 02:36:19

标签: machine-learning word2vec email-spam

我一直在查看机器学习的电子邮件数据集,并注意到除了电子邮件内容外,电子邮件还包含标题信息。是否最好忽略或跳过标题并专注于电子邮件内容?或者,是否应包括标题?这取决于你想要做什么吗?

为了训练Word2Vec,是否应该使用标题?

如果要将电子邮件归类为垃圾邮件或非垃圾邮件,是否应使用标头?

1 个答案:

答案 0 :(得分:1)

电子邮件的标题部分肯定有帮助确定邮件是否是垃圾邮件的信息。 fromreply-tosubject是可用于垃圾邮件过滤的一些重要字段。

话虽如此,您可以随时尝试使用不同类型的数据输入来更好地训练ML算法。