应用错误收集

盲目地对输入数据的新趋势进行分类

时间：2010-02-01 23:44:52

标签： statistics artificial-intelligence classification bayesian

像谷歌新闻这样的新闻媒体如何自动对有关新兴主题的文档进行分类和排名，例如“奥巴马的2011年预算”？

我有一堆文章标记了棒球数据，如球员名称和与文章的相关性（感谢，opencalais），并且很乐意创建一个谷歌新闻风格的界面，排列和显示新帖子，因为他们进来，尤其是新兴话题。我认为一个朴素的贝叶斯分类器可以用一些静态类别进行训练，但这并不能真正跟踪“这个球员刚刚被交易到这个球队，这些其他球员也参与其中”的趋势。

2 个答案:

答案 0 :(得分：4)

毫无疑问，谷歌新闻可能会使用其他技巧（甚至是它们的组合），但从计算上来说，从自由文本推断主题的一个相对便宜的技巧会利用NLP的概念只有连接到其他词语时，一个词才有意义 易于从多个文档中发现新主题类别的算法可概述如下：

POS（词性）标记文本
我们可能希望更多地关注名词，甚至更多关注命名实体（例如 Obama 或 New England ）
规范化文字
特别是用它们的共同词干取代变形词。甚至可能用相应的命名实体替换一些形容词（例如：Parisian ==＆gt; Paris，legal ==＆gt; law）
此外，删除干扰词和噪音表达。
从手动维护的“当前/重复热词”列表中识别一些词（超级碗，选举，丑闻......）
这可以用于后续步骤，以提供更多的重量到一些N-gram
列举每个文件中找到的所有N-gram（其中N为1表示4或5）请务必单独计算给定文档中每个N-gram的出现次数以及引用给定N-gram的文档数
最常被引用的N-gram（即大多数文件中引用的那些）可能是主题。
确定现有主题（来自已知主题列表）
[可选]手动审核新主题

此常规配方也可以更改，以利用文档的其他属性和其中的文本。例如，文档来源（比如cnn / sports vs. cnn / politics ...）可用于选择特定于域的词典。另一个例子，该过程可以或多或少地强调文档标题中的单词/表达（或带有特定标记的文本的其他区域）。

答案 1 :(得分：2)

Google新闻背后的主要算法已发布在Google研究人员的学术文献中：