如何在使用报纸时按类别过滤文章?

时间:2014-09-13 21:26:49

标签: python web-scraping

我试图将报纸库用于简单的新闻报道。 http://newspaper.readthedocs.org/

获得文章列表之后:

cnn_paper = newspaper.build('http://cnn.com')

我想只获得特定类别的文章。虽然我可以看到可用的类别,但我找不到根据已下载的类别过滤我所拥有的文章的方法。

我该怎么做?

1 个答案:

答案 0 :(得分:2)

如果我理解正确,你想要检索给定类别的文章,那么我想它应该是这样的东西(对不起,如果我弄错了):

import newspaper

cnn_paper = newspaper.build('http://cnn.com')

for category in cnn_paper.category_urls():
    cat_paper = newspaper.build(category)
    print cat_paper.articles #Gives all articles of category
    for article in cat_paper.articles:
        print article.url #prints URL for all articles in given category