XPATH适用于Chrome,但不适用于Scrapy

时间:2017-03-15 10:47:49

标签: python xpath web-scraping scrapy scrapy-spider

我试图刮一页。对不起,由于我的工作保密协议,我无法透露这个链接。

 print response.xpath('//tr')

但奇怪的是,XPATH仅适用于Chrome Dev Tools,但不适用于Scrapy。我通过response.body检查了抓取的HTML,HTML正常。

1 个答案:

答案 0 :(得分:3)

找到答案。事实证明,HTML已被破坏,Scrapy无法自行修复,因此需要Beautiful Soup帮助。我是这样做的:

from scrapy.selector import Selector

from bs4 import BeautifulSoup

fixed_html = str(BeautifulSoup(response.body, "lxml"))

print Selector(text=fixed_html).xpath('//*')