Google新闻如何自动将文章分类为Tech / Science / Health / Entertainment / etc?

时间:2013-09-16 01:20:01

标签: algorithm machine-learning web-scraping google-news

假设我选择了像CNN这样的随机来源。根据关键字自动将抓取的文章分类为类别,或者为不同的类别(例如cnn.com/tech或/ entertainment)抓取网站的各个部分会更有利。第二个选项不容易扩展,我不想手动配置不同来源的网址。 Google新闻如何解决此问题?

2 个答案:

答案 0 :(得分:8)

以下是2005年的Google专利

"Systems and methods for improving the ranking of news articles"

2012年的更新:

SYSTEMS AND METHODS FOR IMPROVING THE RANKING OF NEWS ARTICLES

如果您想自己构建一个简单的系统,我会做这样的事情:

拍摄一系列已经归类为体育/科技/其他的新闻报道。

将它们标记为单个单词和单词(短词序列)。

创建一个非常大的表格,其中包含独特的单词和克作为列和单个故事作为行:

StoryId  Class  word1  word2  gram1  gram2 ...

1        sports 0      0.2    0.01   0
2        tech   0.5    0.01   0      0.3
3        sports 0      0.1    0.3    0.01

单元格中的值表示文档中单词的频率,二进制出现或TF-IDF分数。

使用Naive Bayes或支持向量机等分类算法来学习与类标签相关的列的权重。这称为您的模型。

当您获得一个新的,未分类的文档时,以与之前相同的方式对其进行标记,应用您之前创建的模型,它将为您提供最可能的文档类标签。

这是我的视频系列,其中包含有关自动文档分类的视频:

http://vancouverdata.blogspot.ca/2010/11/text-analytics-with-rapidminer-loading.html

答案 1 :(得分:0)

现在不确定答案是否相关

检查谷歌的NLP API。他们使用分层分类 接近800个班级。

Here是他们支持的类别列表