我一直在查看机器学习的电子邮件数据集,并注意到除了电子邮件内容外,电子邮件还包含标题信息。是否最好忽略或跳过标题并专注于电子邮件内容?或者,是否应包括标题?这取决于你想要做什么吗?
为了训练Word2Vec,是否应该使用标题?
如果要将电子邮件归类为垃圾邮件或非垃圾邮件,是否应使用标头?
答案 0 :(得分:1)
电子邮件的标题部分肯定有帮助确定邮件是否是垃圾邮件的信息。 from
,reply-to
和subject
是可用于垃圾邮件过滤的一些重要字段。
话虽如此,您可以随时尝试使用不同类型的数据输入来更好地训练ML算法。