刮特鲁利亚表

时间:2016-01-04 23:22:47

标签: python web-scraping beautifulsoup scrapy

我正在寻找表格中的数据

http://www.trulia.com/school-district/CA-San_Francisco_County/San_Francisco_Unified/

当搜索第一个元素“Yu(alice Fong)Elementary School”的Xpath时,我得到了这个:

//*[@id="elementary_tab_content"]/table/tbody/tr[1]/td[2]/a

当我寻找:

response.xpath('//*[@id="elementary_tab_content"]/table').extract()

我得到了回复,但还不是我的需要

当我尝试:

response.xpath('//*@id="elementary_tab_content"]/table/tbody/tr[1]/td[2]/a').extract()

我什么都没得到,事实上在添加'/ tbody'

后答案是空的
response.xpath('//*[@id="elementary_tab_content"]/table/tbody').extract()

如何使用scrapy提取此表的数据?

1 个答案:

答案 0 :(得分:2)

使用类似的东西:

'//*[@id="elementary_tab_content"]/table//tr'

获取行。

tbody通常由浏览器添加到表中,因此不在响应正文中。