我的原始来源是HTML格式不正确的XHTML。更糟糕的是,我必须清理并将html转换为xhtml,然后喂飞碟。
答案 0 :(得分:2)
飞碟不支持HTML;正如其website所述:“不支持遗留HTML(尽管有几种不同质量的开源Java HTML清理程序可用)。”不过,您可以尝试使用他们建议的HTML清理程序之一。其中最好的一点是HtmlCleaner。
答案 1 :(得分:0)
Flying Saucer UserGuide回答了我的问题。
Flying Saucer是一个XML / CSS渲染器, 这意味着它需要XML文件 输入,应用格式和样式 使用CSS,并生成一个渲染 表示该XML作为输出。 输出可能会进入屏幕(在 GUI),图像或PDF文件。 因为我们相信大多数人都会 有兴趣重新利用他们的知识 网页布局,我们的主要目标 内容是XHTML 1.0(严格),一种XML 标准化的文档格式 HTML。但是,我们接受任何 用于渲染的格式良好的XML 提供CSS告诉我们如何 铺开它。在XHTML的情况下, 提供默认样式表 的盒子和包装内 图书馆,这意味着飞碟可以 渲染大多数XHTML开箱即用 不错的结果。