如何抓取检查页面上未包含详细信息的网站?

时间:2020-09-30 04:07:23

标签: selenium web-scraping beautifulsoup

我有这个网站需要抓取。

I'm not the only one.

我的目标是使用关键字“巴基斯坦”抓取所有新闻内容

到目前为止,只有拥有URL的我才能抓取内容。例如:

from newspaper import Article
import nltk
nltk.download('punkt')

url = 'https://www.dawn.com/news/1582311/who-chief-lauds-pakistan-for-suppressing-covid-19-while-keeping-economy-afloat'
article = Article(url)
article.download()
article.parse()
article.nlp()
article.summary

通过这段代码,我写了我要复制并粘贴所有URL的方法,这是手动完成的。您对如何执行此操作有任何想法吗?

1 个答案:

答案 0 :(得分:0)

更好的选择是https://www.dawn.com/pakistan并下载(.html),然后抓取所有新闻内容,然后使用关键字进行分叉。

相关问题