应用错误收集

用于检查“不严重”的应用程序/脚本可能吗？

时间：2010-06-03 08:55:50

标签： java php javascript mysql database

我有一个分类广告网站，用户可以在那里出售/购买任何东西......

我的问题花费了公司很多钱，时间等，所有分类广告必须由自然人（员工）在网站上发布之前进行审核。

因此，当您创建新的分类内容时，您会收到如下消息：“您的广告将根据我们的政策进行审核，然后在两小时后发布”。

所以一个人必须真正检查是否有诅咒，歧视，不严重等等......

我的问题：

您是否认为可以创建一个用于检查所有这些内容的PHP代码而不是雇用人员来执行此操作？例如，Ebay如何解决这个问题？

将单词列入黑名单很简单，并检查出来的条目，但歧视和“不严重”呢？

3 个答案:

答案 0 :(得分：1)

我认为你不能完全100％自动化 - 但你可以让审稿人的工作更轻松。

您可以为此创建一个应用，为分类广告指定“评级”。

分类越严重，分数越高。根据“可能的违规行为”（错误的单词列表，错误的短信，错误的语法，错误的格式，错误的打字），您可以降低分数。

然后你可以实现“太低的分数被自动拒绝”。

你可以为评论者提供一个系统来评价“得分较高的项目”（也可以考虑日期发布，所以评分很低的帖子肯定会被评估 - 只是稍后）。这将提高他们的效率。

向评论者展示冒犯的规则（“这篇文章可能有错误的语法”，突出列入黑名单的单词，......）。也许允许他们添加坏词（和惩罚修饰符，例如-0.5）。

但是看看专业网站是如何做到的：每个帖子下面都有一个“标志”按钮 - 让社区帮助你。他们标记了一个帖子，主持人去检查。

答案 1 :(得分：1)

我的建议：不要手动检查帖子。一旦您规范内容，您将对网站上的所有内容负责。接受没有任何适度的职位将消除很多责任。但是，为了保持质量并防止不受欢迎的内容，您可以为其他用户添加“标记”内容为不当的功能，这样您就可以手动查看已标记的内容子集，而无需查看所有内容。

现在，要回答您的实际问题，...您可以使用机器学习技术自动过滤。但是，不要期望这种自动过滤是100％准确的。您将不得不尝试不同类型的功能和不同的ML算法，但我的目标是在90％的范围内，并期望至少80％或更准确的东西。也就是说，我甚至不愿意这样做，因为除非你的误报率非常低，否则你会惹恼别人阻止合法帖子，并允许用户标记不适当的内容通常就足够了。您还可以为用户提供一种评价彼此帖子的方式。众包是一种相当有效的技术。

另外，我应该添加最后一件事...如果您仍然希望让人们手动审核帖子，或者您希望手动评估大量帖子，以便拥有足够大的标签数据集来训练您的机器学习算法，你可能会对Mechanical Turk感兴趣，这可以让你真正，非常便宜地利用很多人。

答案 2 :(得分：0)

没有。
计算机无法以可靠的方式理解自由文本 - 您需要人眼有过滤和识别垃圾邮件的工具（例如Akismet），但不是笑话，仇恨言论，偏离主题的帖子等。