我正试图从tripadvisor网站上搜索评论。具有较长文本的评论部分显示为“更多”链接。我已经使用selenium来点击“更多”链接并且它正在工作但我再次在我的最终输出文件中获得半评价。
我发现完整的评论存储在不同的课程中,但我如何才能访问不同的课程?
请参阅下面我的代码的一部分:
driver.get(full_url)
driver.find_element_by_css_selector("span.moreLink").click()
r = requests.get(full_url)
soup = BeautifulSoup(r.content, "lxml")
#soup = BeautifulSoup(source, 'html.parser')
page_count = int(soup.select('.pagination a')[-1].text.strip())
page_results = soup.find_all("p", {"class" : "partial_entry"})
答案 0 :(得分:0)
执行requests.get(full_url).content
时,您将获得该页面的原始标记。这与driver
所处的状态无关(请注意get
调用既未通过driver
也未在 driver
上运行 })。它是一个非常真实的意义,比如在Firefox中打开一个网站,然后运行curl
来获取内容 - 这两个人对彼此一无所知。
您需要做的是询问 driver
当前标记的内容,例如使用driver.find_element_by_css_selector("span").text
。