我应该解析一个html页面并显示该页面的一些搜索结果,我已经看到了一些解析的代码,但它们都在解析XML文件。我试图将html文件转换为XML文件来解析它,但它没有用。我的猜测是因为它包含一些java脚本。我已经谷歌搜索如何从HTML文件中删除java脚本,但结果与安全性有某种关系,我不明白我应该做什么。我也在这里搜索过类似的问题,他们提到了一些名为Jtidy和DeXSS的东西,但我也没有得到这些应该如何帮助我从html页面中删除脚本以便我可以将其转换为XML
我用来将html转换为XML的代码就是这个
InputStream isInHtml =null;
URL url = null;
URLConnection connection =null;
DataInputStream disInHtml =null;
FileOutputStream fosOutHtml =null;
FileWriter fwOutXml =null;
FileReader frInHtml=null;
BufferedWriter bwOutXml =null;
BufferedReader brInHtml=null;
try {
frInHtml = new FileReader("./Lib.html");
brInHtml = new BufferedReader(frInHtml);
SAXBuilder saxBuilder = new SAXBuilder();
Document jdomDocument = saxBuilder.build(brInHtml);
XMLOutputter outputter = new XMLOutputter();
try {
outputter.output(jdomDocument, System.out);
fwOutXml = new FileWriter("./Lib.xml");
bwOutXml = new BufferedWriter(fwOutXml);
outputter.output(jdomDocument, bwOutXml);
System.out.flush();
}
catch (IOException e) {}
}
catch (IOException e) {}
finally {
System.out.flush();
try{
isInHtml.close();
disInHtml.close();
fosOutHtml.flush();
fosOutHtml.getFD().sync();
fosOutHtml.close();
fwOutXml.flush();
fwOutXml.close();
bwOutXml.close();
}
catch(Exception w) {}