我正在寻找通过Google Apps脚本中的内容对HTML标签进行条带化处理的方法。
目前我正在使用这些函数进行HTML解析:
function getTextFromHtml(body) {
return getTextFromNode(Xml.parse(body, true).getElement());
}
function getTextFromNode(x) {
switch(x.toString()) {
case 'XmlText': return x.toXmlString();
case 'XmlElement': return x.getNodes().map(getTextFromNode).join('');
default: return '';
}
}
但对于漫长的HTML来说,这种方式效率很低。
示例HTML内容:http://pastebin.com/FmB4hvN2
有什么想法吗?
答案 0 :(得分:2)
这将删除输入中的所有标记。
var text = html.replace(/<[^>]+>/g, "");
答案 1 :(得分:1)
如果要替换的内容始终用&lt;和&gt;,你可以做
Regex rgx = new Regex(someString);
string result = rgx.Replace("<[^>]*>", "");