使用lxml抓取网站时获取空白数据

时间:2014-09-16 10:43:00

标签: python selenium web-scraping lxml

我正在尝试抓一个简单的网站并编写一些代码。 但是我得到了空白的结果(没有数据)。请帮助我/建议我在哪里做错了。我尝试用lxml刮它然后我也尝试了selenium但是没有成功。

from selenium import webdriver
import lxml.html as lh
import time

browser = webdriver.Firefox()

browser.get('http://usa.kyoceradocumentsolutions.com/americas/jsp/Kyocera/wheretobuy_result.jsp?cat=2&zipcode=98413&city=&state=NJ')   

time.sleep(5.0)

content = browser.page_source

tree = lh.fromstring(content)

for d in (tree.xpath('//table/tr/td[@class="bodytxt"]/b/text()')):
    print(d)

1 个答案:

答案 0 :(得分:1)

默认情况下它不处理框架,我同意Key最好使用该特定框架的直接网址,这里是名称地址的xpath 名称:

    //td[@class="bodytxt" and @align="left" and (b)]//b//text()

代表地址:

    //td[@class="bodytxt" and @align="left" and (b)]/text()

两者:

    //td[@class="bodytxt" and @align="left" and (b)]//text()