Konstantin Tretyakov在垃圾邮件过滤中的机器学习技巧

时间:2016-07-08 09:30:50

标签: machine-learning spam-prevention

http://ats.cs.ut.ee/u/kt/hw/spam/spam.pdf

首先,我不确定这是否是堆栈溢出的一个好问题,因为它与代码没有直接关系,我只是想不出一个不同的地方来问它。 / p>

我一直在研究机器学习以获取我必须编写的报告,并希望撰写有关垃圾邮件过滤的内容。上面的链接看起来是一个非常好的和值得信赖的来源,但我可能非常愚蠢,只是不明白他们在神经网络部分所说的内容(第68页及以上)。在他们调整w b的部分,他们使用c和x来调整它。 C是1还是-1,据我所知(虽然可能在这里也是错误的:()),但x是准备好的词,例如'删除的词,'运行& #39;阻止'运行' - 邮件本身,对吗?你如何使用它来重写w?他们说w-new = w-old + cx,但你如何成倍增加非整数?

1 个答案:

答案 0 :(得分:0)

它是单词的矢量表示。在现有的ml库中,有自动构建此类表示的工具(如thisthat

总的来说,这个想法是微不足道的。想象一下,您知道文档语料库中有1000个单词。不多也不少。单词向量表示的最简单方法是构建一个大小为1000x1的稀疏矩阵,其中对于每个特定单词,您将所有行都设为0,将其中一行标记为1(通常称为“one-hot-encoding”)

这是一个丑陋的表现形式,通常使用更有效的东西,如TF-IDF表示 - 尽管它是同一想法的变体。