我试图刮一页。对不起,由于我的工作保密协议,我无法透露这个链接。
print response.xpath('//tr')
但奇怪的是,XPATH仅适用于Chrome Dev Tools,但不适用于Scrapy。我通过response.body
检查了抓取的HTML,HTML正常。
答案 0 :(得分:3)
找到答案。事实证明,HTML已被破坏,Scrapy无法自行修复,因此需要Beautiful Soup帮助。我是这样做的:
from scrapy.selector import Selector
from bs4 import BeautifulSoup
fixed_html = str(BeautifulSoup(response.body, "lxml"))
print Selector(text=fixed_html).xpath('//*')