Question

我正在使用scrapy从这个网站上抓取数据：http://www.nuforc.org/webreports/ndxevent.html

我需要将不明飞行物目击事件的日期分开，是令人兴奋的！

以下是我正在抓取的一个例子

<TR VALIGN=TOP> <TD><FONT style=FONT-SIZE:11pt FACE="Calibri" COLOR=#000000><A HREF= ndxe201303.html>03/2013</A></TD> <TD ALIGN=RIGHT><FONT style=FONT-SIZE:11pt FACE="Calibri" COLOR=#000000>108</TD>

因此，在此示例中，date = 03/2013，count = 108

现在日期不是问题，因为我可以做到

hxs.select('//tbody//td//font//a//text()').extract()

要在“a”标签内获取文字。

但是有没有办法从td元素中获取具有ALIGN = RIGHT样式的文本。我看过文档和选择器，但我很困惑

hxs.select('//tbody[contains(td, "ALIGN")]').extract()

Answer 1

这会使用属性 <td>从所有ALIGN="RIGHT"中选择文字：

hxs.select('//tbody//td[@ALIGN="RIGHT"]//text()').extract()

Scrapy：只获得ALIGN = RIGHT的td元素

1 个答案: