RSS新闻聚合器如何对数据进行分类?

时间:2014-07-09 05:58:48

标签: rss

像flipboard这样的新闻聚合器如何将他们的文章分类为"政治,"商业"等?我搜索过这个但没有找到结果。我想它可以手动完成,但考虑到Feed的数量,我觉得这很不可能。是否有一个公共数据库,其中包含按类别列出的RSS源列表?如果没有,这是如何实现的?

1 个答案:

答案 0 :(得分:1)

这可能是一个复杂的,多步骤的过程,但总的来说:

  1. 将数据标记为段落,句子和单词。 http://nlp.stanford.edu/software/tokenizer.shtml是可以实现此目的的工具示例。 http://alias-i.com/lingpipe/是另一个例子。

  2. 一旦被标记化,抛出非特定的一般词(也称为“停用词”),例如“a”,“the”,“ha”,“lol”,“omg”等。标记器通常具有内置的方法,可以识别这些并处理它们。

  3. 识别n-gram(一起出现的单词)。例如,单词“Bay”和“Area”是两个单词,但它们通常被认为是单个单词“Bay Area”。您需要识别这样的实体才能正确分类。

  4. 按词性对剩余项目进行分组。这可能很方便,例如,抛弃动词,副词,只使用名词和形容词进行类别分类。

  5. 最后,按类别对数据进行切片和切块。