即使点击链接使用selenium扩展文本后如何获取全文?

时间:2016-07-28 13:42:57

标签: python selenium web-scraping

我正试图从tripadvisor网站上搜索评论。具有较长文本的评论部分显示为“更多”链接。我已经使用selenium来点击“更多”链接并且它正在工作但我再次在我的最终输出文件中获得半评价。

我发现完整的评论存储在不同的课程中,但我如何才能访问不同的课程?

请参阅下面我的代码的一部分:

driver.get(full_url)
driver.find_element_by_css_selector("span.moreLink").click()
r = requests.get(full_url)
soup = BeautifulSoup(r.content, "lxml")
#soup = BeautifulSoup(source, 'html.parser')
page_count = int(soup.select('.pagination a')[-1].text.strip())
page_results = soup.find_all("p", {"class" : "partial_entry"})

1 个答案:

答案 0 :(得分:0)

执行requests.get(full_url).content时,您将获得该页面的原始标记。这与driver所处的状态无关(请注意get调用既未通过driver也未在 driver上运行 })。它是一个非常真实的意义,比如在Firefox中打开一个网站,然后运行curl来获取内容 - 这两个人对彼此一无所知。

您需要做的是询问 driver 当前标记的内容,例如使用driver.find_element_by_css_selector("span").text