应用错误收集

使用常用词监控品牌

时间：2010-02-15 12:20:25

标签： algorithm language-agnostic data-mining linguistics

假设您应该在线监控品牌“ONE”。可以使用哪些算法将关于品牌ONE的页面与包含常用词ONE？的页面分开？

我想也许贝叶斯可以工作，但还有其他方法吗？

6 个答案:

答案 0 :(得分：5)

如果它不是真正独特的单词，那么我会建议下一个方法。

让我们想象一下，我们的关键词是Java。然后至少有两个类别：关于印度尼西亚的节目和旅游业。我们对第一个感兴趣。

让我们看一篇关于Java的小文章（可能来自书籍或维基百科）。然后让我们假设一些阈值（例如，0.7）。然后让我们将我们的文本与不同的页面进行比较（使用Classic Vector Space Model算法的最快方法之一，您可以自己实现它或在谷歌中找到它的实现）。然后将结果与您的阈值进行比较并过滤弱结果。

关于使用贝叶斯算法：imo是不错的方法。但是你应该非常小心地“教”你的算法，因为几个糟糕的输入会破坏整个工作。

让我解释一下。贝叶斯算法的输入是带有品牌词的文本。输出是概率[0 .. 1]，你的文字是关于你的品牌而不是其他东西。实际上，这种算法经常会给出接近0或接近1的结果，并且它很少返回0.2到0.8之间的值。这意味着该算法对小变化非常敏感，100个单词的文本中的1或2个单词会严重影响结果。

答案 1 :(得分：4)

您可能希望将品牌ONE与其产品，执行官或其挑战者联系起来进行监控。

答案 2 :(得分：2)

您正在寻找的术语是概念学习或概念提取。单词 One 出现在许多页面中，但大多数情况下它将一个概念称为数量。它很少涉及一个品牌的概念。（另一个经常使用的例子是SUN，如星体太阳，或公司名为Sun）。

我知道Ari Rappoport对此主题进行了大量研究。实际上，这归结为类似的东西 mouviciel's answer，但Ari的研究也是关于如何自动推断您需要查找的相关单词，以便区分一个号码和一个品牌。

答案 3 :(得分：1)

通过将维基百科视为一个巨大的本体论（其中每个超链接是源节点和终端节点之间的关系），我已经完成了接近的事情。

编辑：一个非常粗略的算法，带有“Java”示例：

在维基百科中查询“Java”。其中其他人，这应该给你（在至少）岛屿和节目语言。
获取这些基地的输入/输出节点页面（来自基页超链接）。
你现在有一小组相关词。
计算每组与页面的“距离”，并找出这些距离的最小值。

您将使用的距离非常主观，必须稍微调整一下以满足您的需求。你也可能无法获得每个页面的“核心”，因为解析HTML将是一个很大的痛苦。

答案 4 :(得分：1)

我建议采用无监督的方法解决问题：

获取尽可能多的文档，在正确的上下文中描述“ONE”并创建语料库。
在该语料库中针对标准英语语料库查找统计上不太可能的短语。

这个网站给出了一个很好的例子 http://sip.s-anand.net/?url=http://en.wikipedia.org/wiki/Apple_Inc。

正如您所见，ipod，powerpc等品牌特定术语很容易被过滤掉。

提取完这些内容后，您可以使用“SIP”和“ONE”等查询来监控新文章，从而创建Google提醒或类似内容（如果谷歌提醒太简单了）。

当然，鉴于这种方法没有监督，它可能效率不高，但应该开展工作。

答案 5 :(得分：0)

另一种方法可能是在Google Directory中查看页面，其中“按主题按类别组织网页”。您可以使用每个页面的类别信息来确定它的含义。