如何防止OWASP HTML清理程序限制行长度?

时间:2015-03-05 14:26:28

标签: java html sanitization owasp html-sanitizing

我必须将几个100000个非常旧的html文档放入Web应用程序中。我在使用OWASP HTML Sanitizer时看到了很好的效果,并且能够确保创建正确清理的HTML。 我唯一的问题是HTML Sanitizer对最大行长度设置了硬性限制。确切地说,这是每行最多250个字节。 不幸的是,这会导致一些单词在中间被分割,这与显示的html(用插入符号标记)相同:

This sentence here is perfectly ok. But in the next s entence there is an additional space in the word "sentence".

                                                     ^

如何告诉消毒剂不要过早结束这些线?

由于原始html中的某些行是800字节或更多,如果我能告诉清理程序只是在空白处插入符号,这也会有所帮助。

1 个答案:

答案 0 :(得分:0)

这不是一个答案,而是一个忏悔:截断行的效果是由我的代码的其他部分引起的,它对输出设置了行长度限制。