使用Mechanize(Ruby)解析格式错误的HTML

时间:2012-08-16 01:03:54

标签: ruby web-scraping mechanize

我想处理一个HTTP响应,其中包含大量HTML,但它本身并不是一个有效的HTML文件。

我知道我可以按照以下方式使用Nokogiri:page = Nokogiri::HTML.parse(page.body)但是,我希望能够访问Mechanize方法,例如Mechanize::Page.search。有没有办法使用这个HTML作为Mechanize::Page,或通过其他一些Mechanize类?

1 个答案:

答案 0 :(得分:2)

实际上,看起来我找到了自己问题的答案:

 page  = Mechanize::Page.new(URI.parse('http://example.com'), {'content-type'=>'text/html'},(page.body), 200, agent)