如何在HTML中删除没有样式的文本?

时间:2013-04-29 16:13:43

标签: ruby nokogiri

我正在尝试抓取没有与之关联的CSS的时间戳值:

<a href="famg.xml">famg.xml</a>              05-Sep-2012 22:21   32M   
<a href="file.203.xml">file.203.xml</a>      12-Apr-2013 21:02   11K   
<a href="file.202.xml">file.202.xml</a>      13-Apr-2013 16:08  1.7K   
<a href="file.201.xml">file.201.xml</a>      14-Apr-2013 16:14  1.8K   
<a href="file.212.xml">file.212.xml</a>      16-Apr-2013 09:02  1.1K

如果我使用doc.css('a'),我会获得所有<a>元素,但是当我查看时间戳值时,它会超出<a>并且没有与之关联的CSS。< / p>

我想阅读每个文件名及其时间戳,并确保它是否是今天生成的。

1 个答案:

答案 0 :(得分:4)

您可以在所选的每个next_sibling.text元素上使用'a'

doc.css('a').each { |x|
  puts x.next_sibling.text
}