我最近提交的Firefox附加组件网站(基于Firefox附加组件SDK 1.10)被拒绝,因为我没有清理我使用的输入并建议use nsIParserUtils
。
我在该页面中找到了函数parseHTML(doc, html, allowStyle, baseURI, isXML)
。我改成了:
function parseHTML(doc, html, allowStyle, baseURI, isXML) {
var parser = Cc["@mozilla.org/parserutils;1"].getService(Ci.nsIParserUtils);
var f = parser.parseFragment(html, allowStyle ? parser.SanitizerAllowStyle : 0,
!!isXML, baseURI, doc);
return f;
}
并且其中的第一个参数被称为文档元素。我不知道应该是什么?我试过document.createDocumentFragment()
,但我得到“ReferenceError:document not defined”错误。有人可以帮助我如何调用这个函数吗?
该函数返回nsIDOMDocumentFragment
。如何将其转换回字符串?
更新:
正如@ zer0所建议我使用:
var parser = Cc["@mozilla.org/parserutils;1"].getService(Ci.nsIParserUtils);
var sanitizedHTML = parser.sanitize(html, flags);
但它违背了我想要做的目的。例如:
<html><head><BASE href='http://localhost/t/h.html' />
<link rel="stylesheet" type="text/css" href="h.css">
<style type="text/css">
.b{
color:green;
}
</style>
<base href="http://foo.example.com/">
</head><body>Sample Text. No Style
<script>Hello malicious code</script>
<p class="a">External Style</p>
<p class="b">Internal Style</p>
<p style="color:blue">Inline Style</p>
<a href="sample.html">Link</a><br><br><div style='color: #666666; font-size: 12px'>Clipped on 6-October-2012, 07:37:39 PM from <a href='http://localhost/t/h.html'>http://localhost/t/h.html</a> </div></body></html>
转换为:
<html><head>
<style type="text/css">
.b{
color:green;
}
</style>
</head><body>Sample Text. No Style
<p class="a">External Style</p>
<p class="b">Internal Style</p>
<p style="color:blue">Inline Style</p>
<a>Link</a><br><br><div style="color: #666666; font-size: 12px">Clipped on 6-October-2012, 07:37:39 PM from <a href="http://localhost/t/h.html">http://localhost/t/h.html</a> </div></body></html>
由于这剥离了外部超链接和CSS,它违背了附加组件本身的目的。我想要的只是删除脚本:
<html><head><BASE href='http://localhost/t/h.html' /> <BASE href='http://localhost/t/h.html' />
<link rel="stylesheet" type="text/css" href="h.css">
<style type="text/css">
.b{
color:green;
}
</style>
<base href="http://foo.example.com/">
</head><body>Sample Text. No Style
<p class="a">External Style</p>
<p class="b">Internal Style</p>
<p style="color:blue">Inline Style</p>
<a href="sample.html">Link</a><br><br><div style='color: #666666; font-size: 12px'>Clipped on 6-October-2012, 07:37:39 PM from <a href='http://localhost/t/h.html'>http://localhost/t/h.html</a> </div></body></html>
有人可以对此有所了解吗?
答案 0 :(得分:3)
由于某种原因,删除了与外部样式的链接:无法验证外部样式,并且它们可能很危险(特别是,-moz-binding
可用于运行代码)。此外,假设您可以将HTML代码放入以下相对链接不安全的位置(例如Thunderbird中的邮件消息)。绝对链接总是很好。
您可能想要做的是预处理HTML代码以消除这些问题 - 解析相对链接和内部对外部样式的引用。像这样:
// Parse the HTML code into a temporary document
var doc = Cc["@mozilla.org/xmlextras/domparser;1"]
.createInstance(Ci.nsIDOMParser)
.parseFromString(html, "text/html");
// Make sure all links are absolute
for (var i = 0; i < doc.links.length; i++)
doc.links[i].setAttribute("href", doc.links[i].href);
// Make sure all stylesheets are inlined
var stylesheets = doc.getElementsByTagName("link");
for (i = 0; i < stylesheets.length; i++)
{
try
{
var request = new XMLHttpRequest();
request.open("GET", stylesheets[i].href, false);
request.send(null);
var style = doc.createElement("style");
style.setAttribute("type", "text/css");
style.textContent = request.responseText;
stylesheets[i].parentNode.replaceChild(style, stylesheets[i]);
i--;
}
catch (e)
{
// Ignore download errors
}
}
// Serialize the document into a string again
html = Cc["@mozilla.org/xmlextras/xmlserializer;1"]
.createInstance(Ci.nsIDOMSerializer)
.serializeToString(doc.documentElement);
// Now sanizite the HTML code
var parser = Cc["@mozilla.org/parserutils;1"].getService(Ci.nsIParserUtils);
var sanitizedHTML = parser.sanitize(html, parser.SanitizerAllowStyle);
请注意,我使用同步XMLHttpRequest来下载样式表内容 - 为简单起见,您的最终代码应该使用不会挂起用户界面的异步下载(很可能通过request
模块)。
答案 1 :(得分:2)
并且其中的第一个参数被称为文档元素。我不知道那是什么意思?
你不需要那个。只需使用nsIParserUtils.sanitize方法,只需获取字符串作为输入并返回已清理版本的输出:
var parser = Cc["@mozilla.org/parserutils;1"].getService(Ci.nsIParserUtils);
var sanitizedHTML = parser.sanitize(html, flags);
检查“常量”部分上方的链接,查看您的场景中需要哪些标记。