Python 网页抓取:来自谷歌搜索结果的网站

时间:2021-03-31 00:14:27

标签: python html web-scraping web-crawler google-crawlers

这里是 Python 的新手。我想从谷歌搜索页面中提取多个网站(例如 100+)的信息。我只想提取关键信息,例如那些带有 <h1><h2><b><li> HTML 标签等。但我不想提取整个段落 <p>

我知道如何从谷歌搜索中收集网站 URL 列表;我知道如何在查看页面的 HTML 后抓取单个网站。我使用 Request 和 BeautifulSoup 来完成这些任务。

但是,我想知道如何从所有这些(100 多个!)网站中提取关键信息,而不必一一查看它们的 html。有没有办法自动找出网站用来强调关键信息的 HTML 标签?例如有些网站可能会使用 <h1>,而有些网站可能会使用 <b> 或其他...

我能想到的就是列出可能的“强调类型”HTML 标签,然后使用 BeautifulSoup.find_all() 进行大规模提取。但肯定有更简单的方法吗?

1 个答案:

答案 0 :(得分:0)

看来你必须先学习如何做循环和函数。每个网站都完全不同,单独抓取网站以提取有用的信息是一项艰巨的任务。我自己是新手,但如果我必须像你一样从标题中提取信息,这就是我会做的:(这只是概念代码,但希望你会发现它有用)

def getLinks(articleUrl):
 html = urlopen('http://en.web.com{}'.format(articleUrl))
 bs = BeautifulSoup(html, 'html.parser')
 return bs.find('h1', {'class':'header'}).find_all('h1',
 header=re.compile('^(/web/)((?!:).)*$'))