我正在尝试将JSP页面文档转换为XML文件。我一直在使用jsoup并且很好地阅读除服务器标签之外的所有内容,但我无法理解如何将整个HTML转换为XML标记。我是说如何逐行获取数据?
我的代码:
File Html=new File("genXML.jsp");
Document doc=Jsoup.parse(Html,"UTF-8","http://www.example.com");
System.out.println(doc.html());
任何帮助都会很棒
答案 0 :(得分:0)
首先,将HTML转换为XML将JSP转换为XML是不一样的。我想你想把JSP生成的HTML翻译成XML。其次,你不想一行一行地做这件事。 HTML块通常不会以一行开头和结尾。
无论如何,您可以使用tagsoup之类的工具将HTML代码转换为XHTML。 XHTML实际上是XML。可以调用Tagsoup来进行翻译。我不知道它是否有一个usefule API,但至少可以使用类似的东西从你的代码中调用它作为外部进程:
Process tr = Runtime.getRuntime().exec(new String[]{ "..." } );
然后,如果您想将其转换为目标XML架构,则可以使用在线查找的工具应用XSLT转换(请查看this和this)。您可以使用JAXP以编程方式应用XSLT转换。
希望我帮忙!