我想从各个评论网站中提取某些内容(评论信息)。
首先。我开始只用一个网页提取内容。我能够毫无问题地实现它。我编写了一个python代码以实现相同的目的。但是我不知道如何使用相同的python模块从多个网站中提取。
我最初使用以下代码提取网站评论:
from webscraping import download, xpath
D = download.Download()
# download and cache the Google Code webpage
html = D.get('http://code.google.com/p/webscraping')
# use xpath to extract the project title
project_title = xpath.get(html, '//div[@id="pname"]/a/span')
这里“html”是一个包含网页HTML内容的变量。
我想更广泛地扩展此解决方案,以便我可以从任何网站中提取评论。
我怎样才能实现这个目标?
请注意:我不想使用网络抓取工具。但是我希望以编程方式使用python实现相同的功能。
提前致谢。
答案 0 :(得分:0)
这样的事情应该可以完成工作。
from bs4 import BeautifulSoup
import urllib.request
for numb in ('1', '10'):
resp = urllib.request.urlopen("https://realfood.tesco.com/search.html?DietaryOption=Vegetarian")
soup = BeautifulSoup(resp, from_encoding=resp.info().get_param('charset'))
for link in soup.find_all('a', href=True):
print(link['href'])