java html解析器没有读取所有页面

时间:2010-10-13 19:57:58

标签: java screen-scraping html-parsing

我正在解析html页面以获取特定信息,但是有些页面我无法获得网页上显示的所有信息,例如this page

我无法获得评论信息。 顺便说一下,如果你看到页面的源代码,那里有很多空行,而且评论信息也没有出现。

你知道为什么吗? 有些库要读这种类型的页面吗?

由于

1 个答案:

答案 0 :(得分:1)

我愿意打赌他们正在使用某种javascript来加载评论信息。为了访问该信息,您需要以某种方式模仿请求或评估javascript,然后解析生成的页面。我建议检查他们的javascript并模仿他们用来下载评论信息的请求,因为这比尝试评估代码中的javascript要容易得多。