Question

我正试图从tripadvisor网站上搜索评论。具有较长文本的评论部分显示为“更多”链接。我已经使用selenium来点击“更多”链接并且它正在工作但我再次在我的最终输出文件中获得半评价。

我发现完整的评论存储在不同的课程中，但我如何才能访问不同的课程？

请参阅下面我的代码的一部分：

driver.get(full_url)
driver.find_element_by_css_selector("span.moreLink").click()
r = requests.get(full_url)
soup = BeautifulSoup(r.content, "lxml")
#soup = BeautifulSoup(source, 'html.parser')
page_count = int(soup.select('.pagination a')[-1].text.strip())
page_results = soup.find_all("p", {"class" : "partial_entry"})

Answer 1

执行requests.get(full_url).content时，您将获得该页面的原始标记。这与driver所处的状态无关（请注意get调用既未通过driver也未在 driver上运行 }）。它是一个非常真实的意义，比如在Firefox中打开一个网站，然后运行curl来获取内容 - 这两个人对彼此一无所知。

您需要做的是询问 driver 当前标记的内容，例如使用driver.find_element_by_css_selector("span").text。

即使点击链接使用selenium扩展文本后如何获取全文？

1 个答案: