来自相同PyQuery对象的不同输出

时间:2015-12-02 21:31:11

标签: python scrapy pyquery

我正在使用scrapy来抓取网站。

with open('test.html', 'wb') as f:
        f.write(response.body)

使用这个块我正在写一个文件的正文。当我打开文件时,我可以看到许多“a”标签。

当我用打印件打印相同的东西时。它只显示两个“a”标签

print response.body

你知道这里发生了什么吗?

1 个答案:

答案 0 :(得分:0)

我已经解决了这个问题。已抓取的网站在组合框中有第二个<html>标记。

我正在使用PyQuery,如果html结构中的标签有任何问题,PyQuery无法正常工作。

现在我已将选择器更改为xpath,现在它在html中找到所有标签。