我经营一个有抱负的作家发表他们写作的网站。当然,一些写作可能具有“敏感”性质。有时它包含很多脏话,有时它是恶意的,有时它是自杀的。这不是常态,但它存在。
当然,我们希望用户可以随意发布他们喜欢的内容,但问题出现在广告客户身上。也就是说,Google Adsense会定期向我们发送有关包含过多咒骂或诽谤内容的警告。最近有人写了一篇关于削减自己的文章,谷歌认为这太过于“悲剧性”了。
我一般能够通过文字来编写脚本并检测很多咒骂词或种族主义术语或反同性恋修辞等等。但我不能为我的生活找出如何检测“悲惨”的文字。
所以,问题是2折。
答案 0 :(得分:2)
你可以训练一个Bayesian filter的悲剧内容。像垃圾邮件过滤器一样,但对于您想要保留的内容。我已经使用过这个PHP库,它运行良好:https://github.com/Dachande663/PHP-Classifier
它适合人类的适度和萎缩过程。