我正在使用安装报纸的Anaconda3。看似简单,但结果不一致。
http://newspaper.readthedocs.io/en/latest/
import newspaper
cnn_paper = newspaper.build('http://www.cnn.com')
for article in cnn_paper.articles:
print(article.url)
print(cnn_paper.size())
这段简单的代码有时会返回所有结果,有时则不返回任何结果。
是否有人使用过这个图书馆或者知道更好的图书馆来搜索新闻网站?我不想自己编写解析器,但如果归结为它,我应该使用什么?
答案 0 :(得分:1)
找到了FIx
https://github.com/codelucas/newspaper/issues/243
cnn_paper = newspaper.build('http://cnn.com', memoize_articles=False)