我希望编写一个Java应用程序,用于查询HTML源代码的多个URL(由URI列表定义),并在每个页面上返回具有已定义id的特定元素的内容。
举个例子,假设有一个博客帖子列表列表,例如......
...现在,如果示例页面如下所示......
<html>
<body>
<div class="content">
<h2 id="post_title">Post Title</h2>
<p class="post_paragraph">Here is the content of my post.</p>
</div>
</body>
</html>
如何获取每个URL的“post_title”id的内容,并使用经典的System.out.print(String s)将其打印到控制台?
感谢所有输入。
答案 0 :(得分:1)
首先使用Java的连接API解析URL
http://download.oracle.com/javase/6/docs/api/java/net/URLConnection.html
然后你需要解析HTML
http://www.google.be/search?q=java+html+parser
最后,您将需要遍历已解析的文档结构(这取决于您选择的解析器)以查找具有给定ID的元素。
答案 1 :(得分:0)
java中包含了解析HTML的支持。请查看javax.swing.text.html.HTMLEditorKit
:http://download.oracle.com/javase/6/docs/api/javax/swing/text/html/HTMLEditorKit.html
有关如何使用它的几个例子:
http://java.sun.com/products/jfc/tsc/articles/bookmarks/
开发/ ParseHTML.htm“&GT; HTTP://www.java2s.com/Tutorial/Java/0120_Development/ParseHTML.htm