报纸python缓存问题,每个调用的输出都相同

时间:2019-01-23 17:42:04

标签: python python-newspaper

我使用以下模块:https://github.com/codelucas/newspaperhttps://news.bitcoin.com/下载比特币文章。但是,当我尝试从下一页'https://news.bitcoin.com/page/2/page'获取下一篇文章时,我得到的输出是相同的。其他任何页面均相同。

我尝试了不同的站点和不同的起始页面。我使用的第一个链接中的文章显示在所有其他链接上。

import newspaper

url = 'https://news.bitcoin.com/page/2'
btc_articles = newspaper.build(url, memoize_articles = False)

for article in btc_articles.articles:
    print(article.url)

1 个答案:

答案 0 :(得分:0)

报纸图书馆会尝试抓取整个网站,而不仅仅是您输入的链接。这意味着您不必遍历所有页面即可获取文章。 但是,您可能已经注意到,lib仍然无法找到所有文章。

这样做的原因似乎是它没有将所有页面都标识为类别(并且没有找到提要),请参见下文(无论页面如何,输出都是相同的):

62.1

输出:

import newspaper

url = 'https://news.bitcoin.com/'
btc_paper = newspaper.build(url, memoize_articles = False)

print('Categories:', [category.url for category in btc_paper.categories])
print('Feeds:', [feed.url for feed in btc_paper.feeds])

正如您在故障报告https://github.com/codelucas/newspaper/issues/670中所指出的那样,这似乎是代码中的错误(或比特币网站设计不佳,具体取决于您的看法)。