使用python来抓取动态页面的Selenium webdriver无法找到元素

时间:2016-03-28 23:20:42

标签: python selenium selenium-webdriver web-scraping scraper

因此,围绕stackoverflow动态内容抓取有很多问题,我经历了所有这些问题,但所有建议的解决方案都不适用于以下问题:

上下文:

问题:

我无法访问此页面上的任何DOM元素。请注意,如果我可以获得有关如何访问搜索栏和搜索按钮的一些提示,那将是一个很好的开始。 See page to scrape 我最终想要的是查看地址列表,启动搜索,并复制屏幕右侧显示的信息。

我尝试了以下内容:

  • 更改了webdriver的浏览器(从Chrome到Firefox)
  • 添加了加载页面的等待时间

    try:
        WebDriverWait(self.driver, 10).until(EC.presence_of_element_located((By.ID, "addressInput")))
    except:
        print "address input not found"
    
  • 试图通过ID,XPATH,NAME,TAG NAME等访问该项目,没有任何效果。

问题

  • 我还有什么可以尝试的,我还没有到目前为止(使用Selenium webdriver)?
  • 有些网站真的不可能刮掉吗? (我不认为每次重新加载页面时,城市都使用算法生成任何随机DOM。)

1 个答案:

答案 0 :(得分:2)

您可以使用此网址http://50.17.237.182/PIM/获取来源:

In [73]: from selenium import webdriver


In [74]: dr = webdriver.PhantomJS()

In [75]: dr.get("http://50.17.237.182/PIM/")

In [76]: print(dr.find_element_by_id("addressInput"))
<selenium.webdriver.remote.webelement.WebElement object at 0x7f4d21c80950>

如果查看返回的源代码,则有一个带有src url的框架属性:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
   "http://www.w3.org/TR/html4/strict.dtd">
<html>

<head>
  <title>San Francisco Property Information Map </title>
  <META name="description" content="Public access to useful property information and resources at the click of a mouse"><META name="keywords" content="san francisco, property, information, map, public, zoning, preservation, projects, permits, complaints, appeals">
</head>
<frameset rows="100%,*" border="0">
  <frame src="http://50.17.237.182/PIM" frameborder="0" />
  <frame frameborder="0" noresize />
</frameset>

<!-- pageok -->
<!-- 02 -->
<!-- -->
</html>

感谢@Alecxe,使用dr.switch_to.frame(0)的最简单方法:

In [77]: dr = webdriver.PhantomJS()

In [78]: dr.get("http://propertymap.sfplanning.org/")

In [79]:  dr.switch_to.frame(0)  

In [80]: print(dr.find_element_by_id("addressInput"))
<selenium.webdriver.remote.webelement.WebElement object at 0x7f4d21c80190>

如果您在浏览器中访问http://50.17.237.182/PIM/,则会看到与propertymap.sfplanning.org/完全相同,唯一的区别是您可以使用前者完全访问这些元素。

如果要输入值并单击搜索框,则类似于:

from selenium import webdriver


dr = webdriver.PhantomJS()
dr.get("http://propertymap.sfplanning.org/")

dr.switch_to.frame(0)

dr.find_element_by_id("addressInput").send_keys("whatever")
dr.find_element_by_xpath("//input[@title='Search button']").click()

但是如果你想提取数据,你可能会发现使用url查询是一个更简单的选项,你将从查询中获得一些json。

enter image description here