Question

我是网络和scrapy的菜鸟。对不起这个问题的简单性。

我有这个：item['title'] = response.css('.pt-title a ::title').extract()

我希望得到这个标题：

<a href="http://www.heresyodomain.com/" title="Here's the title!">Here's the title!</a>

我这样做item['title'] = response.css('.pt-title a::text').extract()但我意识到我只是将文字放在标签中。

我已经尝试了几次我上面的迭代，这只是我离开的最后一次。我们非常感谢您的一点指导。

Answer 1

由于a，您的查询会选择a::text代码的文字。如果您需要title的文字，请尝试以下操作：

item['title'] = response.css('.pt-title a::attr(title)').extract()

最终你会找回一份清单，所以在正确验证结果后，你应该用item['title'] = response.css('.pt-title a::attr(title)').extract()[0]来处理这个问题。

Answer 2

感谢这个问题： python scrapy get href using css selector我得到了答案。

我用过这个：FROM ubuntu:14.04 ... WORKDIR / RUN wget http://SOME-URL TOOL-PACKAGE RUN tar xf TOOL-PACKAGE ... # setup some envs ENV # extend PATH ENV PATH $PATH: ... ... COPY ./ src WORKDIR src # use tool to generate some input files RUN SOME-TOOL-BINARY-WHICH-USES-JRE # continue build with make RUN make

如何使用scrapy从css选择器获取数据？

2 个答案: