Question

我希望编写一个Java应用程序，用于查询HTML源代码的多个URL（由URI列表定义），并在每个页面上返回具有已定义id的特定元素的内容。

举个例子，假设有一个博客帖子列表列表，例如......

...现在，如果示例页面如下所示......

<html>
<body>
    <div class="content">
        <h2 id="post_title">Post Title</h2>
        <p class="post_paragraph">Here is the content of my post.</p>
    </div>
</body>
</html>

如何获取每个URL的“post_title”id的内容，并使用经典的System.out.print（String s）将其打印到控制台？

感谢所有输入。

Answer 1

首先使用Java的连接API解析URL

http://download.oracle.com/javase/6/docs/api/java/net/URLConnection.html

然后你需要解析HTML

http://www.google.be/search?q=java+html+parser

最后，您将需要遍历已解析的文档结构（这取决于您选择的解析器）以查找具有给定ID的元素。

Answer 2

java中包含了解析HTML的支持。请查看javax.swing.text.html.HTMLEditorKit：http://download.oracle.com/javase/6/docs/api/javax/swing/text/html/HTMLEditorKit.html

有关如何使用它的几个例子：

http://java.sun.com/products/jfc/tsc/articles/bookmarks/

开发/ ParseHTML.htm“＆GT; HTTP：//www.java2s.com/Tutorial/Java/0120_Development/ParseHTML.htm

查询URL并返回特定HTML ID的内容

2 个答案: