Question

任何人都可以帮我阅读标签内的页面来源。

我尝试过使用htmlUnit和jsoup ...但它仅仅重新启动内部和标签内容。任何回应都受到高度赞赏。

Answer 1

使用element.html()来阅读HTML，而不是JSoup

中标记本身的包含

例如：

String html = "<p>An </p><form action="SOMESERVLET"><b>example</b></form> ";
Document doc = Jsoup.parse(html);
String htmlContent = doc.select("form").first().html();

对于你的情况

Document doc = Jsoup.connect("example.com").get(); 
Iterator<Element> itr = doc.select("form").iterator()
while(itr.hasNext()){ 
   Element element = itr.next();
   System.out.println(element.html());
}

Answer 2

一步一步

从网址读取html到字符串
查找<form>标记为start index
查找</form>标记为last index，* 如果此标记不存在则最后一个索引是长度 *
仅substring从start到end索引

这是一个简单的算法，但我认为有很多工具可以帮助你!!!

读取网页<form>中的页面源</form>

2 个答案: