我再次遇到问题我无法找到源代码,因为它隐藏了什么......当我的java程序索引页面时它会发现除了我需要的信息之外的一切...我认为它隐藏了一个原因但是反正在这周围?
它只是一堆显示在firebug中的tr / td标签,但在查看页面源或我在下面时没有显示
URL url = new URL("my url");
URLConnection yc = url.openConnection();
BufferedReader in = new BufferedReader(new InputStreamReader(yc.getInputStream()));
String inputLine;
while ((inputLine = in.readLine()) != null) {
我真的不知道如何尝试获取我需要的信息......
答案 0 :(得分:3)
这种行为的原因是因为这些标记可能是使用javascript动态注入到DOM中的,并且不是初始HTML的一部分,这是您可以使用URLConnection
获取的内容。甚至可以使用AJAX创建它们。如果要获取这些解释器,则需要在服务器上使用javascript解释器。
答案 1 :(得分:0)
如果它们没有显示在页面源中,则可能是由Javascript代码动态添加的。除了包含javascript解释器之外,没有办法从服务器端脚本中获取它们,这是一个相当高的开销。
但是,标签中的信息可能来自某个地方。为什么不追踪它并从那里直接抓住它?
答案 2 :(得分:0)
尝试使用Jsoup。
Document doc = doc=Jsoup.parse("http:\\",10000);
System.out.print(doc.toString());
答案 3 :(得分:0)
假设问题是使用javascript注入“缺失”内容,以下SO问题是相关的: