是否可以使用Nokogiri创建HTML推送解析器?

时间:2011-11-18 10:03:11

标签: ruby parsing screen-scraping nokogiri sax

我正在尝试解析大型HTML文档并从中提取信息,以便我可以使用我想要的数据创建JSON文档。我目前正在使用Nokogiri :: HTML :: SAX :: Parser来解析HTML文档,它工作得很好;但是为了加快速度,我想使用更接近Nokogiri::XML::SAX::PushParser的东西,以便在我下载HTML文档时开始解析。

I've tried playing around与Nokogiri一起使用PushParser投入HTML SAX解析器,但它一直给我语法错误,因为它仍然将输入文档视为XML。可能有一个很好的理由为什么你不能使用HTML的推送解析器方法,因为标签格式错误等等,但我想知道是否有一种方法可以使用Nokogiri的PushParser和HTML文档?

1 个答案:

答案 0 :(得分:0)

2011年12月,Nokogiri添加了HTML Push Parser。所以我想这回答了是否有可能的问题。