用于检查“不严重”的应用程序/脚本可能吗?

时间:2010-06-03 08:55:50

标签: java php javascript mysql database

我有一个分类广告网站,用户可以在那里出售/购买任何东西......

我的问题花费了公司很多钱,时间等,所有分类广告必须由自然人(员工)在网站上发布之前进行审核。

因此,当您创建新的分类内容时,您会收到如下消息:“您的广告将根据我们的政策进行审核,然后在两小时后发布”。

所以一个人必须真正检查是否有诅咒,歧视,不严重等等......

我的问题:

您是否认为可以创建一个用于检查所有这些内容的PHP代码而不是雇用人员来执行此操作? 例如,Ebay如何解决这个问题?

将单词列入黑名单很简单,并检查出来的条目,但歧视和“不严重”呢?

3 个答案:

答案 0 :(得分:1)

我认为你不能完全100%自动化 - 但你可以让审稿人的工作更轻松。

您可以为此创建一个应用,为分类广告指定“评级”

分类越严重,分数越高。根据“可能的违规行为”(错误的单词列表,错误的短信,错误的语法,错误的格式,错误的打字),您可以降低分数。

然后你可以实现“太低的分数被自动拒绝”。

你可以为评论者提供一个系统来评价“得分较高的项目”(也可以考虑日期发布,所以评分很低的帖子肯定会被评估 - 只是稍后)。这将提高他们的效率。

向评论者展示冒犯的规则(“这篇文章可能有错误的语法”,突出列入黑名单的单词,......)。也许允许他们添加坏词(和惩罚修饰符,例如-0.5)。

但是看看专业网站是如何做到的:每个帖子下面都有一个“标志”按钮 - 让社区帮助你。他们标记了一个帖子,主持人去检查。

答案 1 :(得分:1)

我的建议:不要手动检查帖子。一旦您规范内容,您将对网站上的所有内容负责。接受没有任何适度的职位将消除很多责任。但是,为了保持质量并防止不受欢迎的内容,您可以为其他用户添加“标记”内容为不当的功能,这样您就可以手动查看已标记的内容子集,而无需查看所有内容。

现在,要回答您的实际问题,...您可以使用机器学习技术自动过滤。但是,不要期望这种自动过滤是100%准确的。您将不得不尝试不同类型的功能和不同的ML算法,但我的目标是在90%的范围内,并期望至少80%或更准确的东西。也就是说,我甚至不愿意这样做,因为除非你的误报率非常低,否则你会惹恼别人阻止合法帖子,并允许用户标记不适当的内容通常就足够了。您还可以为用户提供一种评价彼此帖子的方式。众包是一种相当有效的技术。

另外,我应该添加最后一件事...如果您仍然希望让人们手动审核帖子,或者您希望手动评估大量帖子,以便拥有足够大的标签数据集来训练您的机器学习算法,你可能会对Mechanical Turk感兴趣,这可以让你真正,非常便宜地利用很多人。

答案 2 :(得分:0)

没有。
计算机无法以可靠的方式理解自由文本 - 您需要人眼 有过滤和识别垃圾邮件的工具(例如Akismet),但不是笑话,仇恨言论,偏离主题的帖子等。