假设您应该在线监控品牌“ONE”。可以使用哪些算法将关于品牌ONE的页面与包含常用词ONE?的页面分开?
我想也许贝叶斯可以工作,但还有其他方法吗?
答案 0 :(得分:5)
如果它不是真正独特的单词,那么我会建议下一个方法。
让我们想象一下,我们的关键词是Java。然后至少有两个类别:关于印度尼西亚的节目和旅游业。我们对第一个感兴趣。
让我们看一篇关于Java的小文章(可能来自书籍或维基百科)。然后让我们假设一些阈值(例如,0.7)。然后让我们将我们的文本与不同的页面进行比较(使用Classic Vector Space Model算法的最快方法之一,您可以自己实现它或在谷歌中找到它的实现)。然后将结果与您的阈值进行比较并过滤弱结果。
关于使用贝叶斯算法:imo是不错的方法。但是你应该非常小心地“教”你的算法,因为几个糟糕的输入会破坏整个工作。
让我解释一下。贝叶斯算法的输入是带有品牌词的文本。输出是概率[0 .. 1],你的文字是关于你的品牌而不是其他东西。实际上,这种算法经常会给出接近0或接近1的结果,并且它很少返回0.2到0.8之间的值。这意味着该算法对小变化非常敏感,100个单词的文本中的1或2个单词会严重影响结果。
答案 1 :(得分:4)
您可能希望将品牌ONE与其产品,执行官或其挑战者联系起来进行监控。
答案 2 :(得分:2)
您正在寻找的术语是概念学习或概念提取。单词 One 出现在许多页面中,但大多数情况下它将一个概念称为数量。它很少涉及一个品牌的概念。 (另一个经常使用的例子是SUN,如星体太阳,或公司名为Sun)。
我知道Ari Rappoport对此主题进行了大量研究。实际上,这归结为类似的东西 mouviciel's answer,但Ari的研究也是关于如何自动推断您需要查找的相关单词,以便区分一个号码和一个品牌。
答案 3 :(得分:1)
通过将维基百科视为一个巨大的本体论(其中每个超链接是源节点和终端节点之间的关系),我已经完成了接近的事情。
编辑:一个非常粗略的算法,带有“Java”示例:
您将使用的距离非常主观,必须稍微调整一下以满足您的需求。你也可能无法获得每个页面的“核心”,因为解析HTML将是一个很大的痛苦。
答案 4 :(得分:1)
我建议采用无监督的方法解决问题:
获取尽可能多的文档,在正确的上下文中描述“ONE”并创建语料库。
在该语料库中针对标准英语语料库查找统计上不太可能的短语。
这个网站给出了一个很好的例子
http://sip.s-anand.net/?url=http://en.wikipedia.org/wiki/Apple_Inc。
正如您所见,ipod,powerpc等品牌特定术语很容易被过滤掉。
提取完这些内容后,您可以使用“SIP”和“ONE”等查询来监控新文章,从而创建Google提醒或类似内容(如果谷歌提醒太简单了)。
当然,鉴于这种方法没有监督,它可能效率不高,但应该开展工作。
答案 5 :(得分:0)
另一种方法可能是在Google Directory中查看页面,其中“按主题按类别组织网页”。您可以使用每个页面的类别信息来确定它的含义。