如何使用scrapy从css选择器获取数据?

时间:2015-08-05 07:33:09

标签: html css web-scraping scrapy

我是网络和scrapy的菜鸟。对不起这个问题的简单性。

我有这个:item['title'] = response.css('.pt-title a ::title').extract()

我希望得到这个标题:

<a href="http://www.heresyodomain.com/" title="Here's the title!">Here's the title!</a>

我这样做item['title'] = response.css('.pt-title a::text').extract()但我意识到我只是将文字放在标签中。

我已经尝试了几次我上面的迭代,这只是我离开的最后一次。我们非常感谢您的一点指导。

2 个答案:

答案 0 :(得分:3)

由于a,您的查询会选择a::text代码的文字。如果您需要title的文字,请尝试以下操作:

item['title'] = response.css('.pt-title a::attr(title)').extract()

最终你会找回一份清单,所以在正确验证结果后,你应该用item['title'] = response.css('.pt-title a::attr(title)').extract()[0]来处理这个问题。

答案 1 :(得分:1)

感谢这个问题: python scrapy get href using css selector我得到了答案。

我用过这个:FROM ubuntu:14.04 ... WORKDIR / RUN wget http://SOME-URL TOOL-PACKAGE RUN tar xf TOOL-PACKAGE ... # setup some envs ENV # extend PATH ENV PATH $PATH: ... ... COPY ./ src WORKDIR src # use tool to generate some input files RUN SOME-TOOL-BINARY-WHICH-USES-JRE # continue build with make RUN make