从ruby中的HTML元素中提取背景图像

时间:2013-06-04 12:14:15

标签: ruby-on-rails ruby nokogiri

我正在尝试使用Nokogiri从div中提取background-url,但我无法解析它的background-url。

在StackOverflow上搜索时,我发现此链接为 Parsing: Can I pick up the URL of embedded CSS Background in Nokogiri?
但那里给出的解决方案不起作用。

1 个答案:

答案 0 :(得分:2)

Nokogiri不是网络浏览器。它位于libxml2之上,可以快速,优秀地解析XML和HTML,以及从中处理和提取数据。

它只处理网页中的HTML。它不运行任何JavaScript。它不会将CSS应用于DOM。除非直接在该元素的style="..."属性上,否则无法使用Nokogiri查找应用于元素的CSS样式。 (即便如此,你还需要使用其他东西,比如正则表达式来解析其中的CSS。)

你会想要使用其他东西,比如Ruby控制的无头浏览器,例如: Watir或Selenium,如果你想处理一个网页并像网页浏览器那样对待它。