Question

我试图刮一页。对不起，由于我的工作保密协议，我无法透露这个链接。

 print response.xpath('//tr')

但奇怪的是，XPATH仅适用于Chrome Dev Tools，但不适用于Scrapy。我通过response.body检查了抓取的HTML，HTML正常。

Answer 1

找到答案。事实证明，HTML已被破坏，Scrapy无法自行修复，因此需要Beautiful Soup帮助。我是这样做的：

from scrapy.selector import Selector

from bs4 import BeautifulSoup

fixed_html = str(BeautifulSoup(response.body, "lxml"))

print Selector(text=fixed_html).xpath('//*')

XPATH适用于Chrome，但不适用于Scrapy

1 个答案: