Java从网站获取源代码

时间:2011-07-04 06:04:21

标签: java html

我再次遇到问题我无法找到源代码,因为它隐藏了什么......当我的java程序索引页面时它会发现除了我需要的信息之外的一切...我认为它隐藏了一个原因但是反正在这周围?

它只是一堆显示在firebug中的tr / td标签,但在查看页面源或我在下面时没有显示

URL url = new URL("my url");
            URLConnection yc = url.openConnection();
            BufferedReader in = new BufferedReader(new InputStreamReader(yc.getInputStream()));
            String inputLine;
            while ((inputLine = in.readLine()) != null) {

我真的不知道如何尝试获取我需要的信息......

4 个答案:

答案 0 :(得分:3)

这种行为的原因是因为这些标记可能是使用javascript动态注入到DOM中的,并且不是初始HTML的一部分,这是您可以使用URLConnection获取的内容。甚至可以使用AJAX创建它们。如果要获取这些解释器,则需要在服务器上使用javascript解释器。

答案 1 :(得分:0)

如果它们没有显示在页面源中,则可能是由Javascript代码动态添加的。除了包含javascript解释器之外,没有办法从服务器端脚本中获取它们,这是一个相当高的开销。

但是,标签中的信息可能来自某个地方。为什么不追踪它并从那里直接抓住它?

答案 2 :(得分:0)

尝试使用Jsoup。

Document doc = doc=Jsoup.parse("http:\\",10000);
System.out.print(doc.toString());

答案 3 :(得分:0)

假设问题是使用javascript注入“缺失”内容,以下SO问题是相关的: