如何使用BeautifulSoup从Web页面中读取更多信息来搜索评论

时间:2017-08-17 12:55:51

标签: python web-scraping beautifulsoup bs4

我正在尝试从网站上搜索评论,并且无法通过阅读更多' 选项获取评论。 我只能获取数据直到阅读更多。 我正在使用BeautifulSoup。 任何帮助表示赞赏。

3 个答案:

答案 0 :(得分:0)

你必须使用selenium提供的click选项,它允许你找到read more标签或类并单击它,一旦出现你将不得不再次点击它...当它没有显示时你将不得不废弃你需要的内容,

答案 1 :(得分:0)

以下是如何获取所有评论全文的演示。运行它并获得结果。执行后等一会儿。这是您在不点击任何链接的情况下的方法。

import requests ; from bs4 import BeautifulSoup

soup = BeautifulSoup(requests.get("http://www.mouthshut.com/product-reviews/Lakeside-Chalet-Mumbai-reviews-925017044").text, "html.parser")
for title in soup.select("a[id^=ctl00_ctl00_ContentPlaceHolderFooter_ContentPlaceHolderBody_rptreviews_]"):
    items = title.get('href')
    if items:
        broth = BeautifulSoup(requests.get(items).text, "html.parser")
        for item in broth.select("div.user-review p.lnhgt"):
            print(item.text)

答案 2 :(得分:0)

@ user5444075和@SIM

div.user-review p.lnhgt

以上似乎不再存在。

在下面的xpath可用于得到所有的HREF。

//a[contains(@id,"lnkTitle")]/@href

使用上面的href向服务器发出新请求,并获取类rev-main-content的文本