Question

我再次遇到问题我无法找到源代码，因为它隐藏了什么......当我的java程序索引页面时它会发现除了我需要的信息之外的一切...我认为它隐藏了一个原因但是反正在这周围？

它只是一堆显示在firebug中的tr / td标签，但在查看页面源或我在下面时没有显示

URL url = new URL("my url");
            URLConnection yc = url.openConnection();
            BufferedReader in = new BufferedReader(new InputStreamReader(yc.getInputStream()));
            String inputLine;
            while ((inputLine = in.readLine()) != null) {

我真的不知道如何尝试获取我需要的信息......

Answer 1

这种行为的原因是因为这些标记可能是使用javascript动态注入到DOM中的，并且不是初始HTML的一部分，这是您可以使用URLConnection获取的内容。甚至可以使用AJAX创建它们。如果要获取这些解释器，则需要在服务器上使用javascript解释器。

Answer 2

如果它们没有显示在页面源中，则可能是由Javascript代码动态添加的。除了包含javascript解释器之外，没有办法从服务器端脚本中获取它们，这是一个相当高的开销。

但是，标签中的信息可能来自某个地方。为什么不追踪它并从那里直接抓住它？

Answer 3

尝试使用Jsoup。

Document doc = doc=Jsoup.parse("http:\\",10000);
System.out.print(doc.toString());

Answer 4

假设问题是使用javascript注入“缺失”内容，以下SO问题是相关的：

What's a good tool to screen-scrape with Javascript support?

Java从网站获取源代码

4 个答案: