如何使用PHP查找有关文本质量的基本信息?

时间:2011-07-22 06:46:13

标签: php text

我有一个PHP / MySQL驱动的网站,我在过去的6个月里没有维护过。这是一个用户来提交文章的网站。我有50.000篇文章,通过一些'临时'测试,我应该说大约50-60%是垃圾邮件和来自其他网站的复制粘贴文本。

我正在寻找一个PHP脚本,它将采用一些基本参数来标记/删除垃圾邮件文本(不是复制/粘贴,对于这一步只有纯垃圾邮件)所以我的想法是创建一个占用每个单元的脚本,计数字符,单词,不同的单词和短语用法和单词密度,并根据这些因素删除纯垃圾邮件(有很多重复的短语等)。因此,我将失去一整天,我的问题是:

PHP中是否已经开发了一些解决方案? 如果我需要自己编写代码,我应该使用哪些参数来确定垃圾邮件?

3 个答案:

答案 0 :(得分:2)

这是我过去使用的PHP类 - Basic Spam Class 我不是作者,因此我对代码可能造成的损害不承担任何责任。我用它来检查短文本 - 用户对网站的评论,所以我不确定50k长篇文章的表现,也许你需要做一些改进。但至少你有一些东西可以从中开始。

答案 1 :(得分:1)

也许您可以查看AkismetBad Behaviour。第一个分析您已经拥有的文章(以及未来的文章)和不良行为,以便在垃圾邮件进入您的数据库之前对其进行打击。

他们可能不太理想,但他们可以帮助你。

答案 2 :(得分:0)

我发现像这样的网站上的很多垃圾邮件都缺少文章。它们只包含一堆关键字和链接。您可以为最少数量的文章添加参数。如果帖子中只有不到1%是文章,则可以将其拒绝为垃圾邮件。

例如,如果您计算上段中the s an s asome s的数量,则会得到3 a s和1 the(43个单词中共有4篇文章是9.3%)