Question

这里是 Python 的新手。我想从谷歌搜索页面中提取多个网站（例如 100+）的信息。我只想提取关键信息，例如那些带有 <h1>、<h2> 或 <b> 或 <li> HTML 标签等。但我不想提取整个段落 <p>。

我知道如何从谷歌搜索中收集网站 URL 列表；我知道如何在查看页面的 HTML 后抓取单个网站。我使用 Request 和 BeautifulSoup 来完成这些任务。

但是，我想知道如何从所有这些（100 多个！）网站中提取关键信息，而不必一一查看它们的 html。有没有办法自动找出网站用来强调关键信息的 HTML 标签？例如有些网站可能会使用 <h1>，而有些网站可能会使用 <b> 或其他...

我能想到的就是列出可能的“强调类型”HTML 标签，然后使用 BeautifulSoup.find_all() 进行大规模提取。但肯定有更简单的方法吗？

Answer 1

看来你必须先学习如何做循环和函数。每个网站都完全不同，单独抓取网站以提取有用的信息是一项艰巨的任务。我自己是新手，但如果我必须像你一样从标题中提取信息，这就是我会做的：（这只是概念代码，但希望你会发现它有用）

def getLinks(articleUrl):
 html = urlopen('http://en.web.com{}'.format(articleUrl))
 bs = BeautifulSoup(html, 'html.parser')
 return bs.find('h1', {'class':'header'}).find_all('h1',
 header=re.compile('^(/web/)((?!:).)*$'))

Python 网页抓取：来自谷歌搜索结果的网站

1 个答案: