Question

我已经成功地屏蔽了某些网站，但今天在某个网站上发现了Nokogiri的一些非常奇怪的行为。

如果我查看Nokogiri从特定页面上的网站上的实际HTML源代码下拉的HTML源代码，它将被截断。有些页面工作得很好，所有数据都在那里，其他页面则被删除并被截断。

www.bento.com/revj/0172.html（不起作用 - Nokogiri返回的截断HTML） www.bento.com/revj/0101.html（很棒）

scraped_jpage = Nokogiri::HTML(open(page_to_scrape)
puts scraped_pagej

我尝试了各种不同的代码，更改了编码（UTF-8，SHIFT_JIS等），但我无法看到任何理由Nokogiri截断返回的HTML。

这些页面的英文版本都完美无缺。

www.bento.com/rev/0172.html www.bento.com/rev/0101.html

感谢您提供任何帮助 - 希望这是我错过的，而不是错误。

Answer 1

因为该源页面具有错误的html结构。

尝试打印结果错误：

puts scraped_jpage.errors