如何使用PHP检测垃圾站点?

时间:2013-06-11 05:57:32

标签: php html spam

我是PHP的新手,并尝试开发一个系统,以吸引那些试图进入社交网站的垃圾邮件网站的人。 (如评论或帖子在pinterest,博客网站等..)

以下是我使用的方法:当用户在帖子/评论字段中输入文本时,我将浏览所有文本并提取其中的所有URL。然后:

  1. 将网页标题与该网页的正文进行比较,以查看正文中包含的字词数量。然后给它排名。
  2. 将元标记与网页正文进行比较,并查看元标记是否包含在网页正文中。然后给它排名。
  3. 将锚文本与该网页的正文进行比较
  4. 将网址中的关键字与网页正文进行比较
  5. 检查网页是否包含任何色情词。
  6. 通过将网址与在线数据库进行比较来检查列入黑名单的网站。
  7. 是否可以告诉我是否有其他方法可以确定用户指定的URL是垃圾邮件还是营销网站?任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:2)

这个问题实际上似乎并不是特定于PHP的。但无论如何......

这是一篇有一些想法的类似帖子

Detecting a (naughty or nice) URL or link in a text string

此外,有关该主题的科学论文应该值得关注。这是一个让你入门的。

http://dl.acm.org/citation.cfm?id=2093493&dl=ACM&coll=DL&CFID=337935760&CFTOKEN=13189143