我正在使用神经网络构建垃圾邮件检测系统。我无法理解如何继续我目前的工作。
我有 - 未读邮件被标记为已读并使用tf-idf称重转换为邮件向量。 基本上, 我的电子邮件消息看起来像
Email : (Word1,Score1),(Word2,Score2)...
完成后(解析,词干,删除词和tf-idf转换)。我已经读过关于通过backpropogation训练的反馈网络,它似乎是最常见的方法。 基本上,我如何进一步减少向量的维数以及如何将其作为输入提供。此外,隐藏层如何表现以及隐藏层神经元的数量如何影响神经网络的性能。另外,特征向量如何与我的不同?如何形成特征向量?
谢谢。向前看清楚。