使用Nokogiri解析大型HTML文件

时间:2016-05-31 09:55:52

标签: ruby nokogiri

我正在尝试用Nokogiri解析http://www.pro-medic.ru/index.php?ht=246&perpage=all,但遗憾的是我无法从页面中获取所有项目。

我的简单测试代码是:

require 'open-uri'
require 'nokogiri'

html = Nokogiri::HTML open('http://www.pro-medic.ru/index.php?ht=246&perpage=all')
p html.css('ul.products-grid-compact li .goods_container').count

它只返回83项,但实际数量约为186。

我认为问题可能在open,但似乎函数正确读取了HTML页面。

有人遇到同样的问题吗?

1 个答案:

答案 0 :(得分:3)

该文件似乎超过了Nokogiri的解析器限制。您可以通过添加HUGE标记来放宽限制:

require 'open-uri'
require 'nokogiri'

url = 'http://www.pro-medic.ru/index.php?ht=246&perpage=all'
html = Nokogiri::HTML(open(url)) do |config|
  config.options |= Nokogiri::XML::ParseOptions::HUGE
end
html.css('ul.products-grid-compact li .goods_container').count
#=> 186

请注意|=是一个按位OR赋值运算符,不要将它与逻辑运算符||=混淆

根据Parse Options,您还可以通过config.huge

设置此标记