哪个贝叶斯过滤器在Python中最便宜?

时间:2013-09-27 03:48:05

标签: python bayesian-networks spam-prevention

长话短说,我试图将非电子邮件文本(实际上是小书)过滤为坏(垃圾邮件)和好(火腿)。我正准备使用bogofilter(http://bogofilter.sourceforge.net/),因为它似乎既成熟又有效,但我一直用Python编写代码;这意味着我可能不得不使用子进程从我的脚本中调用bogofilter,因为它是用(C?)编写的。 我刚刚遇到一个基于python的垃圾邮件过滤器似乎做了我需要的https://github.com/jart/redisbayes(虽然我没有测试过一个与另一个的有效性。我还没有一个很好的数据集)。它使用了一个看起来很好且很好的redis密钥后端,但是我不熟悉redis并且不确定它与bogofilter(BerkleyDB支持的)子进程调用相比有什么优点/缺点。我知道redis实际上是一个服务器进程,因此我似乎必须在脚本启动之前运行一个实例。这不会是一个太大的问题,但最终的目标是让我的Uni的服务器运行;另一方面,bogofilter没有持续的后台程序需要我注意。

归结为1:性能(说实话不是世界末日,这个数据集是100k-400k短文本范围内的东西;价值约50 MB),2:实用性不是只有程序员的立场(我!),但后来的系统管理员,以及3:模型的可靠性(我计划在这里看一下bogofilter算法,因为我明白它不仅仅是一个贝叶斯模型......我想。我是机器学习领域的新手。)

我只是想要了解最聪明的行动方案,并且可能会帮助下一个做这样的事情略显模糊的人。低级本科开放的建议,打我!!

0 个答案:

没有答案