我有这个网站需要抓取。
我的目标是使用关键字“巴基斯坦”抓取所有新闻内容
到目前为止,只有拥有URL的我才能抓取内容。例如:
from newspaper import Article
import nltk
nltk.download('punkt')
url = 'https://www.dawn.com/news/1582311/who-chief-lauds-pakistan-for-suppressing-covid-19-while-keeping-economy-afloat'
article = Article(url)
article.download()
article.parse()
article.nlp()
article.summary
通过这段代码,我写了我要复制并粘贴所有URL的方法,这是手动完成的。您对如何执行此操作有任何想法吗?