Newspaper3k从archive.org waybackmachine页面返回0篇文章,而实时页面按预期工作

时间:2017-12-19 12:58:43

标签: python python-newspaper

当试图在archive.org的归档页面url上使用python库newspaper3时,它无法获取任何文章。但是,当在同一个实时页面上使用它时,它可以正常工作。请参阅以下内容:

import newspaper

len(newspaper.build('https://bbc.co.uk/news').articles)
>> 111

len(newspaper.build('https://web.archive.org/web/http://www.bbc.co.uk/news').articles)
>>> 0

即使使用返回原始修改页面的特殊id hack也不起作用:

len(newspaper.build('https://web.archive.org/web/20171219030622id_/http://www.bbc.co.uk/news').articles)
    >>> 0

非常感谢任何帮助,谢谢!

1 个答案:

答案 0 :(得分:1)

我发现没有迹象表明这个图书馆可以与archive.org一起使用,或者它可以与archive.org一起使用。

[1] [2]个来源列表均未提及archive.orgweb.archive.org

我下载了整个repository来搜索源代码,但它也没有提及任何Internet存档域。

根据我this file所知,articles属性基于RSS / ATOM提要。我不认为Internet Archive会存档,即使它存在,因为它们会链接回网站的实时版本,因此需要对库本身进行一些更改才能使它们与Internet Archive一起工作。

You've already opened an issue,你指定它根本不起作用(甚至在单篇文章中 - 这可能是其他地方的问题,例如在用于确定哪些节点包含文章的节点评分算法中)因此,如果您不想深入了解库源代码并自行修复,那么您只能等待。