提取"(更多)"来自Quora的Selenium文本 - Python

时间:2015-10-13 15:46:45

标签: javascript python css selenium web-scraping

我试图抓住Quora的答案。 考虑此链接,例如: https://www.quora.com/Is-it-too-late-for-an-X-year-old-to-learn-how-to-program

看第一个答案,还有一个"更多"标签女巫表示存在更多隐藏的文字。

问题 在Python中使用Selenium我无法打开并从该项中提取文本。

我试试...... 我还尝试点击JavaScript链接"显示更多"这个结构:

   try:
       if ans.find_element_by_xpath('.//a[contains(@class, "more_link")]').is_displayed():
                    elem_more = ans.find_element_by_xpath('.//a[contains(@class, "more_link")]')
                    #self.driver.execute_script("arguments[0].click();", elem_more )
                    Hover = webdriver.ActionChains(self.driver).move_to_element(elem_more)
                    Hover.click(elem_more).perform()
                    #wait_1.until(EC.invisibility_of_element_located((By.CLASS_NAME, "switch_indicator")))
   except (NoSuchElementException,TimeoutException) as e:
       pass

然后用

取答答案的内容
 content = ans.find_element_by_xpath('.//span[contains(@class, "inline_editor_value")]')

这适用于#34;更多" becouse是我用来从任何答案中提取文本的容器。

enter image description here

1 个答案:

答案 0 :(得分:0)

点击more按钮后,您可以在此css路径中找到整篇文章'.inline_editor_value > div > div'

>>> c = driver.find_element_by_css_selector('.inline_editor_value > div > div').text
>>> print len(c)
3491
>>> driver.find_element_by_class_name("more_link").click()
>>> c_new = driver.find_element_by_css_selector('.inline_editor_value > div > div').text
>>> print len(c_new)
9642