用于电子邮件垃圾邮件检测的神经网络输入

时间:2016-01-07 21:15:57

标签: c# machine-learning neural-network classification email-spam

我正在尝试将神经网络用于电子邮件垃圾邮件检测。我有神经网络解决XOR问题,我想为我的目的编辑该网络并使用ba。可在此处访问:Where can I find Microsoft.TeamFoundation.Build.Client in Visual Studio 2015?

我下载了一些电子邮件垃圾邮件和火腿文本格式的数据库,用于培训网络。所以我有一些训练集。但我的问题是:

该神经网络应该输入什么?

感谢您的评论! :)

2 个答案:

答案 0 :(得分:2)

简短回答:输入将是您的垃圾邮件。

更长的答案,在一个非常基本的层面: 假设您的电子邮件没有奇怪的字符。 想象一个向量,向量的每个元素代表那些电子邮件中出现的单词之一 对于每封电子邮件,您可以创建一个这样的向量,并为每个元素计算电子邮件中该单词的频率 所有这些向量,每封电子邮件一个,都是您的输入。

这是基本的想法。然后,您可以应用stemming,使用tf-idf而不是普通频率来优化此功能,引入其他输入元素(例如,来自电子邮件标题)。

答案 1 :(得分:1)

我遇到了一些针对电子邮件和短信的垃圾邮件过滤器,其中最有效的是基于" Naive Bayes spam filtering"技术。所以我建议先看看这个技术。

作为开头的想法:

您可以在神经网络中使用加权词技术,如下所示。

第一步:创建一个"字典"基于神经网络,巫婆用你的垃圾邮件的概率回答你。

第二步:计算整个邮件成为垃圾邮件的概率。您可能有多个输入,例如,第一个输入需要具有0-10%的垃圾邮件概率的单词数,具有10-20%概率的第二个单词数,依此类推,直到最后一个数字的概率为90-100% ,输出这样的神经网络,你可以设置消息被垃圾邮件的概率。