我正在使用scrapy从这个网站上抓取数据:http://www.nuforc.org/webreports/ndxevent.html
我需要将不明飞行物目击事件的日期分开,是令人兴奋的!
以下是我正在抓取的一个例子
<TR VALIGN=TOP>
<TD><FONT style=FONT-SIZE:11pt FACE="Calibri" COLOR=#000000><A HREF= ndxe201303.html>03/2013</A></TD>
<TD ALIGN=RIGHT><FONT style=FONT-SIZE:11pt FACE="Calibri" COLOR=#000000>108</TD>
因此,在此示例中,date = 03/2013,count = 108
现在日期不是问题,因为我可以做到
hxs.select('//tbody//td//font//a//text()').extract()
要在“a”标签内获取文字。
但是有没有办法从td元素中获取具有ALIGN = RIGHT样式的文本。 我看过文档和选择器,但我很困惑
hxs.select('//tbody[contains(td, "ALIGN")]').extract()
答案 0 :(得分:1)
这会使用属性 <td>
从所有ALIGN="RIGHT"
中选择文字:
hxs.select('//tbody//td[@ALIGN="RIGHT"]//text()').extract()