Question

我有这个网站需要抓取。

我的目标是使用关键字“巴基斯坦”抓取所有新闻内容

到目前为止，只有拥有URL的我才能抓取内容。例如：

from newspaper import Article
import nltk
nltk.download('punkt')

url = 'https://www.dawn.com/news/1582311/who-chief-lauds-pakistan-for-suppressing-covid-19-while-keeping-economy-afloat'
article = Article(url)
article.download()
article.parse()
article.nlp()
article.summary

通过这段代码，我写了我要复制并粘贴所有URL的方法，这是手动完成的。您对如何执行此操作有任何想法吗？

Answer 1

更好的选择是https://www.dawn.com/pakistan并下载（.html），然后抓取所有新闻内容，然后使用关键字进行分叉。

如何抓取检查页面上未包含详细信息的网站？

1 个答案: