我是网络和scrapy的菜鸟。对不起这个问题的简单性。
我有这个:item['title'] = response.css('.pt-title a ::title').extract()
我希望得到这个标题:
<a href="http://www.heresyodomain.com/" title="Here's the title!">Here's the title!</a>
我这样做item['title'] = response.css('.pt-title a::text').extract()
但我意识到我只是将文字放在标签中。
我已经尝试了几次我上面的迭代,这只是我离开的最后一次。我们非常感谢您的一点指导。
答案 0 :(得分:3)
由于a
,您的查询会选择a::text
代码的文字。如果您需要title
的文字,请尝试以下操作:
item['title'] = response.css('.pt-title a::attr(title)').extract()
最终你会找回一份清单,所以在正确验证结果后,你应该用item['title'] = response.css('.pt-title a::attr(title)').extract()[0]
来处理这个问题。
答案 1 :(得分:1)
感谢这个问题: python scrapy get href using css selector我得到了答案。
我用过这个:FROM ubuntu:14.04
...
WORKDIR /
RUN wget http://SOME-URL TOOL-PACKAGE
RUN tar xf TOOL-PACKAGE
...
# setup some envs
ENV
# extend PATH
ENV PATH $PATH: ...
...
COPY ./ src
WORKDIR src
# use tool to generate some input files
RUN SOME-TOOL-BINARY-WHICH-USES-JRE
# continue build with make
RUN make