如何从多个网页中提取内容?

时间:2017-04-25 10:08:44

标签: python web-scraping

我想从各个评论网站中提取某些内容(评论信息)。

首先。我开始只用一个网页提取内容。我能够毫无问题地实现它。我编写了一个python代码以实现相同的目的。但是我不知道如何使用相同的python模块从多个网站中提取。

我最初使用以下代码提取网站评论:

from webscraping import download, xpath
D = download.Download()
# download and cache the Google Code webpage
html = D.get('http://code.google.com/p/webscraping')
# use xpath to extract the project title
project_title = xpath.get(html, '//div[@id="pname"]/a/span')

这里“html”是一个包含网页HTML内容的变量。

我想更广泛地扩展此解决方案,以便我可以从任何网站中提取评论。

我怎样才能实现这个目标?

请注意:我不想使用网络抓取工具。但是我希望以编程方式使用python实现相同的功能。

提前致谢。

1 个答案:

答案 0 :(得分:0)

这样的事情应该可以完成工作。

from bs4 import BeautifulSoup
import urllib.request

for numb in ('1', '10'):
    resp = urllib.request.urlopen("https://realfood.tesco.com/search.html?DietaryOption=Vegetarian")
    soup = BeautifulSoup(resp, from_encoding=resp.info().get_param('charset'))

    for link in soup.find_all('a', href=True):
        print(link['href'])