假设我选择了像CNN这样的随机来源。根据关键字自动将抓取的文章分类为类别,或者为不同的类别(例如cnn.com/tech或/ entertainment)抓取网站的各个部分会更有利。第二个选项不容易扩展,我不想手动配置不同来源的网址。 Google新闻如何解决此问题?
答案 0 :(得分:8)
以下是2005年的Google专利
"Systems and methods for improving the ranking of news articles"
2012年的更新:
SYSTEMS AND METHODS FOR IMPROVING THE RANKING OF NEWS ARTICLES
如果您想自己构建一个简单的系统,我会做这样的事情:
拍摄一系列已经归类为体育/科技/其他的新闻报道。
将它们标记为单个单词和单词(短词序列)。
创建一个非常大的表格,其中包含独特的单词和克作为列和单个故事作为行:
StoryId Class word1 word2 gram1 gram2 ...
1 sports 0 0.2 0.01 0
2 tech 0.5 0.01 0 0.3
3 sports 0 0.1 0.3 0.01
单元格中的值表示文档中单词的频率,二进制出现或TF-IDF分数。
使用Naive Bayes或支持向量机等分类算法来学习与类标签相关的列的权重。这称为您的模型。
当您获得一个新的,未分类的文档时,以与之前相同的方式对其进行标记,应用您之前创建的模型,它将为您提供最可能的文档类标签。
这是我的视频系列,其中包含有关自动文档分类的视频:
http://vancouverdata.blogspot.ca/2010/11/text-analytics-with-rapidminer-loading.html
答案 1 :(得分:0)