读取网页<form>中的页面源</form>

时间:2012-06-13 10:39:18

标签: java html-parsing jsoup htmlunit

任何人都可以帮我阅读标签内的页面来源。

我尝试过使用htmlUnit和jsoup ...但它仅仅重新启动内部和标签内容。 任何回应都受到高度赞赏。

2 个答案:

答案 0 :(得分:0)

使用element.html()来阅读HTML,而不是JSoup

中标记本身的包含

例如:

String html = "<p>An </p><form action="SOMESERVLET"><b>example</b></form> ";
Document doc = Jsoup.parse(html);
String htmlContent = doc.select("form").first().html();

对于你的情况

Document doc = Jsoup.connect("example.com").get(); 
Iterator<Element> itr = doc.select("form").iterator()
while(itr.hasNext()){ 
   Element element = itr.next();
   System.out.println(element.html());
}

答案 1 :(得分:0)

一步一步

  • 从网址读取html到字符串
  • 查找<form>标记为start index
  • 查找</form>标记为last index,* 如果此标记不存在则最后一个索引是长度 *
  • substringstartend索引

这是一个简单的算法,但我认为有很多工具可以帮助你!!!