我在社交媒体监控系统上工作。我们不会自己抓取网络,我们从像Spinn3r这样的聚合器获取资源。在大多数情况下,“博客”只是过滤色情网站链接页面,但我们想要内部的东西,我们可以在比等待上游提供商进行更改的更快的时间框架内进行培训。
我查看了Spamassassin,如果我们处理电子邮件,它将非常适合我们的目的。是否有任何图书馆可以只收集一段文字,并根据工作频率,链接数量,隐藏的背景文字等等给出质量得分?
理想情况下,我正在寻找Java中的东西,但如果没有任何东西,我可以使用客户端服务器或嵌入jruby或jython库。
我想我最终还是要自己建造它,但它总是值得一试。
答案 0 :(得分:0)
有WordPress的垃圾邮件插件可以捕获垃圾评论。谷歌搜索产生:WP-SpamFree Anti-Spam和Spam Karma 2.3
WordPress插件似乎是用PHP实现的。也许那里可能会有所帮助。