如何使用beautifulsoup从网页中获取选择性文本数据?

时间:2017-02-24 11:36:58

标签: python html screen-scraping bs4

我必须从以下网页获取数据。

https://www.snapdeal.com/product/skycandle-purple-magic-mop/624744850271#bcrumbSearch:magic%20mop

我还附上了该页面的截图。 我的目标是在"客户评论"中获取买方输入的评论。通过向下滚动可以找到的部分。

Screenshot of the 'Customer Reviews' section

import urllib.request

wiki = "https://www.snapdeal.com/product/skycandle-purple-magic-mop/624744850271#bcrumbSearch:magic%20mop"

page = urllib.request.urlopen(wiki)

from bs4 import BeautifulSoup

soup = BeautifulSoup(page)

#for printing comments 
comm = soup.find_all("div", {"class" : "reviewareain clearfix"})

print (comm)

但是当我运行这个程序时,我没有得到任何输出。我提到的班级名称和标签,我用过&#39;检查元素&#39;在我的Chrome浏览器上查找相同的内容。由于html结构中的多个嵌套<div>标签,我猜我选择了错误的类名 我是python的新手,所以,一个简单而全面的答案将不胜感激。另外,除官方文档外,请提供一些好的在线资料来研究beautifulsoup。

0 个答案:

没有答案