Nokogiri返回的HTML与实际的HTML源代码不同

时间:2010-10-30 06:56:21

标签: nokogiri

我已经成功地屏蔽了某些网站,但今天在某个网站上发现了Nokogiri的一些非常奇怪的行为。

如果我查看Nokogiri从特定页面上的网站上的实际HTML源代码下拉的HTML源代码,它将被截断。有些页面工作得很好,所有数据都在那里,其他页面则被删除并被截断。

www.bento.com/revj/0172.html(不起作用 - Nokogiri返回的截断HTML) www.bento.com/revj/0101.html(很棒)

scraped_jpage = Nokogiri::HTML(open(page_to_scrape)
puts scraped_pagej

我尝试了各种不同的代码,更改了编码(UTF-8,SHIFT_JIS等),但我无法看到任何理由Nokogiri截断返回的HTML。

这些页面的英文版本都完美无缺。

www.bento.com/rev/0172.html www.bento.com/rev/0101.html

感谢您提供任何帮助 - 希望这是我错过的,而不是错误。

1 个答案:

答案 0 :(得分:1)

因为该源页面具有错误的html结构。

尝试打印结果错误:

puts scraped_jpage.errors