Question

我应该解析一个html页面并显示该页面的一些搜索结果，我已经看到了一些解析的代码，但它们都在解析XML文件。我试图将html文件转换为XML文件来解析它，但它没有用。我的猜测是因为它包含一些java脚本。我已经谷歌搜索如何从HTML文件中删除java脚本，但结果与安全性有某种关系，我不明白我应该做什么。我也在这里搜索过类似的问题，他们提到了一些名为Jtidy和DeXSS的东西，但我也没有得到这些应该如何帮助我从html页面中删除脚本以便我可以将其转换为XML

我用来将html转换为XML的代码就是这个

InputStream isInHtml =null;
URL url  = null;
URLConnection connection =null;
DataInputStream disInHtml =null;
FileOutputStream fosOutHtml =null;
FileWriter fwOutXml =null;
FileReader frInHtml=null;
BufferedWriter bwOutXml =null;
BufferedReader brInHtml=null;

try {
    frInHtml = new FileReader("./Lib.html");
    brInHtml = new BufferedReader(frInHtml);
    SAXBuilder saxBuilder = new SAXBuilder();
    Document jdomDocument = saxBuilder.build(brInHtml);
    XMLOutputter outputter = new XMLOutputter();

    try {
        outputter.output(jdomDocument, System.out);
        fwOutXml = new FileWriter("./Lib.xml");
        bwOutXml = new BufferedWriter(fwOutXml);
        outputter.output(jdomDocument, bwOutXml);
        System.out.flush();
    }
    catch (IOException e)  {}        
}
catch (IOException e) {}  
finally {
    System.out.flush();
    try{
        isInHtml.close();
        disInHtml.close();                      
        fosOutHtml.flush();
        fosOutHtml.getFD().sync();
        fosOutHtml.close();
        fwOutXml.flush();
        fwOutXml.close();
        bwOutXml.close();
    }
    catch(Exception w) {}

从html文件中删除javascript

0 个答案: