像谷歌新闻这样的新闻媒体如何自动对有关新兴主题的文档进行分类和排名,例如“奥巴马的2011年预算”?
我有一堆文章标记了棒球数据,如球员名称和与文章的相关性(感谢,opencalais),并且很乐意创建一个谷歌新闻风格的界面,排列和显示新帖子,因为他们进来,尤其是新兴话题。我认为一个朴素的贝叶斯分类器可以用一些静态类别进行训练,但这并不能真正跟踪“这个球员刚刚被交易到这个球队,这些其他球员也参与其中”的趋势。
答案 0 :(得分:4)
毫无疑问,谷歌新闻可能会使用其他技巧(甚至是它们的组合),但从计算上来说,从自由文本推断主题的一个相对便宜的技巧会利用NLP的概念只有连接到其他词语时,一个词才有意义 易于从多个文档中发现新主题类别的算法可概述如下:
此常规配方也可以更改,以利用文档的其他属性和其中的文本。例如,文档来源(比如cnn / sports vs. cnn / politics ...)可用于选择特定于域的词典。另一个例子,该过程可以或多或少地强调文档标题中的单词/表达(或带有特定标记的文本的其他区域)。
答案 1 :(得分:2)
Google新闻背后的主要算法已发布在Google研究人员的学术文献中: