Question

假设我选择了像CNN这样的随机来源。根据关键字自动将抓取的文章分类为类别，或者为不同的类别（例如cnn.com/tech或/ entertainment）抓取网站的各个部分会更有利。第二个选项不容易扩展，我不想手动配置不同来源的网址。 Google新闻如何解决此问题？

Answer 1

以下是2005年的Google专利

"Systems and methods for improving the ranking of news articles"

2012年的更新：

SYSTEMS AND METHODS FOR IMPROVING THE RANKING OF NEWS ARTICLES

如果您想自己构建一个简单的系统，我会做这样的事情：

拍摄一系列已经归类为体育/科技/其他的新闻报道。

将它们标记为单个单词和单词（短词序列）。

创建一个非常大的表格，其中包含独特的单词和克作为列和单个故事作为行：

StoryId  Class  word1  word2  gram1  gram2 ...

1        sports 0      0.2    0.01   0
2        tech   0.5    0.01   0      0.3
3        sports 0      0.1    0.3    0.01

单元格中的值表示文档中单词的频率，二进制出现或TF-IDF分数。

使用Naive Bayes或支持向量机等分类算法来学习与类标签相关的列的权重。这称为您的模型。

当您获得一个新的，未分类的文档时，以与之前相同的方式对其进行标记，应用您之前创建的模型，它将为您提供最可能的文档类标签。

这是我的视频系列，其中包含有关自动文档分类的视频：

http://vancouverdata.blogspot.ca/2010/11/text-analytics-with-rapidminer-loading.html

Answer 2

现在不确定答案是否相关

检查谷歌的NLP API。他们使用分层分类接近800个班级。

Here是他们支持的类别列表

Google新闻如何自动将文章分类为Tech / Science / Health / Entertainment / etc？

2 个答案: