查询URL并返回特定HTML ID的内容

时间:2011-04-11 10:17:47

标签: java html

我希望编写一个Java应用程序,用于查询HTML源代码的多个URL(由URI列表定义),并在每个页面上返回具有已定义id的特定元素的内容。

举个例子,假设有一个博客帖子列表列表,例如......

...现在,如果示例页面如下所示......

<html>
<body>
    <div class="content">
        <h2 id="post_title">Post Title</h2>
        <p class="post_paragraph">Here is the content of my post.</p>
    </div>
</body>
</html>

如何获取每个URL的“post_title”id的内容,并使用经典的System.out.print(String s)将其打印到控制台?

感谢所有输入。

2 个答案:

答案 0 :(得分:1)

首先使用Java的连接API解析URL

http://download.oracle.com/javase/6/docs/api/java/net/URLConnection.html

然后你需要解析HTML

http://www.google.be/search?q=java+html+parser

最后,您将需要遍历已解析的文档结构(这取决于您选择的解析器)以查找具有给定ID的元素。

答案 1 :(得分:0)

java中包含了解析HTML的支持。请查看javax.swing.text.html.HTMLEditorKithttp://download.oracle.com/javase/6/docs/api/javax/swing/text/html/HTMLEditorKit.html

有关如何使用它的几个例子:

http://java.sun.com/products/jfc/tsc/articles/bookmarks/

开发/ ParseHTML.htm“&GT; HTTP://www.java2s.com/Tutorial/Java/0120_Development/ParseHTML.htm