使用常用词监控品牌

时间:2010-02-15 12:20:25

标签: algorithm language-agnostic data-mining linguistics

假设您应该在线监控品牌“ONE”。可以使用哪些算法将关于品牌ONE的页面与包含常用词ONE?的页面分开?

我想也许贝叶斯可以工作,但还有其他方法吗?

6 个答案:

答案 0 :(得分:5)

如果它不是真正独特的单词,那么我会建议下一个方法。

让我们想象一下,我们的关键词是Java。然后至少有两个类别:关于印度尼西亚的节目和旅游业。我们对第一个感兴趣。

让我们看一篇关于Java的小文章(可能来自书籍或维基百科)。然后让我们假设一些阈值(例如,0.7)。然后让我们将我们的文本与不同的页面进行比较(使用Classic Vector Space Model算法的最快方法之一,您可以自己实现它或在谷歌中找到它的实现)。然后将结果与您的阈值进行比较并过滤弱结果。


关于使用贝叶斯算法:imo是不错的方法。但是你应该非常小心地“教”你的算法,因为几个糟糕的输入会破坏整个工作。

让我解释一下。贝叶斯算法的输入是带有品牌词的文本。输出是概率[0 .. 1],你的文字是关于你的品牌而不是其他东西。实际上,这种算法经常会给出接近0或接近1的结果,并且它很少返回0.2到0.8之间的值。这意味着该算法对小变化非常敏感,100个单词的文本中的1或2个单词会严重影响结果。

答案 1 :(得分:4)

您可能希望将品牌ONE与其产品,执行官或其挑战者联系起来进行监控。

答案 2 :(得分:2)

您正在寻找的术语是概念学习概念提取。单词 One 出现在许多页面中,但大多数情况下它将一个概念称为数量。它很少涉及一个品牌的概念。 (另一个经常使用的例子是SUN,如星体太阳,或公司名为Sun)。

我知道Ari Rappoport对此主题进行了大量研究。实际上,这归结为类似的东西 mouviciel's answer,但Ari的研究也是关于如何自动推断您需要查找的相关单词,以便区分一个号码和一个品牌。

答案 3 :(得分:1)

通过将维基百科视为一个巨大的本体论(其中每个超链接是源节点和终端节点之间的关系),我已经完成了接近的事情。

编辑:一个非常粗略的算法,带有“Java”示例:

  • 在维基百科中查询“Java”。其中 其他人,这应该给你(在 至少)岛屿和节目 语言。
  • 获取这些基地的输入/输出节点 页面(来自基页超链接)。
  • 你现在有一小组相关词。
  • 计算每组与页面的“距离”,并找出这些距离的最小值。

您将使用的距离非常主观,必须稍微调整一下以满足您的需求。你也可能无法获得每个页面的“核心”,因为解析HTML将是一个很大的痛苦。

答案 4 :(得分:1)

我建议采用无监督的方法解决问题:

  1. 获取尽可能多的文档,在正确的上下文中描述“ONE”并创建语料库。

  2. 在该语料库中针对标准英语语料库查找统计上不太可能的短语。

  3. 这个网站给出了一个很好的例子 http://sip.s-anand.net/?url=http://en.wikipedia.org/wiki/Apple_Inc

    正如您所见,ipod,powerpc等品牌特定术语很容易被过滤掉。

    提取完这些内容后,您可以使用“SIP”和“ONE”等查询来监控新文章,从而创建Google提醒或类似内容(如果谷歌提醒太简单了)。

    当然,鉴于这种方法没有监督,它可能效率不高,但应该开展工作。

答案 5 :(得分:0)

另一种方法可能是在Google Directory中查看页面,其中“按主题按类别组织网页”。您可以使用每个页面的类别信息来确定它的含义。