jTidy在整理HTML后没有返回任何内容

时间:2012-01-16 19:59:52

标签: java android html tidy jtidy

使用jTidy(在Android上)时遇到了一个非常烦人的问题。我发现jTidy适用于我测试过的每个HTML文档,除了以下内容:

    <!DOCTYPE html>
      <html lang="en">
       <head>
        <meta charset="utf-8" />

         <!-- Always force latest IE rendering engine & Chrome Frame 
              Remove this if you use the .htaccess -->
         <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1" />

         <title>templates</title>
         <meta name="description" content="" />
         <meta name="author" content="" />

         <meta name="viewport" content="width=device-width; initial-scale=1.0" />

         <!-- Replace favicon.ico & apple-touch-icon.png in the root of your domain and delete these references -->
      <link rel="shortcut icon" href="/favicon.ico" />
      <link rel="apple-touch-icon" href="/apple-touch-icon.png" />
   </head>

 <body>
   <div>
     <header>
       <h1>Page Heading</h1>
     </header>
     <nav>
       <p><a href="/">Home</a></p>
       <p><a href="/contact">Contact</a></p>
     </nav>

     <div>

     </div>

     <footer>
      <p>&copy; Copyright</p>
     </footer>
   </div>
 </body>
 </html>

但是在整理之后,jTidy什么都不返回(如果包含Tidied HTML的String被称为result,result.equals(“”)== true)

我注意到了一些非常有趣的东西:如果我删除了HTML中的所有内容,那么jTidy就可以完美地运行。 &lt; body&gt;&lt; / body&gt;中是否有内容? jTidy不喜欢?

这是我正在使用的Java代码:

 public String tidy(String sourceHTML) {
   StringReader reader = new StringReader(sourceHTML);

   ByteArrayOutputStream baos = new ByteArrayOutputStream();
   Tidy tidy = new Tidy();
   tidy.setMakeClean(true);
   tidy.setQuiet(false);
   tidy.setIndentContent(true);
   tidy.setSmartIndent(true);

   tidy.parse(reader, baos);

   try {
     return baos.toString(mEncoding);
   } catch (UnsupportedEncodingException e) {
     return null;
   }
 }

我的Java有问题吗?这是jTidy的错误吗?有什么方法可以让jTidy不这样做吗? (我无法更改HTML)。如果这绝对无法修复,还有其他好的HTML Tidiers吗?非常感谢!

2 个答案:

答案 0 :(得分:4)

试试这个:

tidy.setForceOutput(true);

可能存在解析错误。

答案 1 :(得分:2)

查看Jsoup,这是我对任何类型的Java Html处理的建议(我已经使用过HtmlCleaner,但后来切换到了jsoup)

使用Jsoup清理Html:

final String yourHtml = ...

String output = Jsoup.clean(yourHtml, Whitelist.relaxed());

多数民众赞成!

(如果您想更改/删除/解析/ ...):

Document doc = Jsoup.parse(<file/string/website>, null);

String output = doc.toString();