Question

我正在使用javascript处理xhtml。我通过连接nodeType == Node.TEXT_NODE的所有子节点的nodeValue来获取div节点的文本内容。

结果字符串有时包含一个不间断的空间实体。如何用常规空格字符替换它？

我的div看起来像这样......

<div><b>Expires On</b> Sep 30, 2009 06:30 AM</div>

网上发现的以下建议不起作用：

var cleanText = text.replace(/^\xa0*([^\xa0]*)\xa0*$/g,"");


var cleanText = replaceHtmlEntities(text);

var replaceHtmlEntites = (function() {
  var translate_re = /&(nbsp|amp|quot|lt|gt);/g;
  var translate = {
    "nbsp": " ",
    "amp" : "&",
    "quot": "\"",
    "lt"  : "<",
    "gt"  : ">"
  };
  return function(s) {
    return ( s.replace(translate_re, function(match, entity) {
      return translate[entity];
    }) );
  }
})();

有什么建议吗？

Answer 1

这比你制作它容易得多。文本节点中不包含文字字符串" "，它将具有代码为160的相应字符。

function replaceNbsps(str) {
  var re = new RegExp(String.fromCharCode(160), "g");
  return str.replace(re, " ");
}

textNode.nodeValue = replaceNbsps(textNode.nodeValue);

<强>更新

更容易：

textNode.nodeValue = textNode.nodeValue.replace(/\u00a0/g, " ");

Answer 2

如果您只需要替换 ，那么您可以使用更简单的正则表达式：

var textWithNBSpaceReplaced = originalText.replace(/ /g, ' ');

此外，您的div示例中有一个拼写错误，它显示&nnbsp;而不是 。

Answer 3

当你用“var foo = function() {...};”定义一个函数时，我想，该函数只在那行后定义。换句话说，试试这个：

var replaceHtmlEntites = (function() { var translate_re = /&(nbsp|amp|quot|lt|gt);/g; var translate = { "nbsp": " ", "amp" : "&", "quot": "\"", "lt" : "<", "gt" : ">" }; return function(s) { return ( s.replace(translate_re, function(match, entity) { return translate[entity]; }) ); } })(); var cleanText = text.replace(/^\xa0*([^\xa0]*)\xa0*$/g,""); cleanText = replaceHtmlEntities(text);

修改：此外，首次声明变量时只使用“var”（您在cleanText变量上使用了两次）。

编辑2 ：问题是函数名称的拼写。你有“var replaceHtml Entites =”。它应该是“var replaceHtml Entit i es =”

Answer 4

第一行非常混乱。它只需要：

var cleanText = text.replace(/\xA0/g,' ');

这应该是你所需要的一切。

Answer 5

我使用了它，它起作用了：

var cleanText = text.replace(/&amp;nbsp;/g,"");

Answer 6

var text = "&quot;&nbsp;&amp;&lt;&gt;";
text = text.replaceHtmlEntites();

String.prototype.replaceHtmlEntites = function() {
var s = this;
var translate_re = /&(nbsp|amp|quot|lt|gt);/g;
var translate = {"nbsp": " ","amp" : "&","quot": "\"","lt"  : "<","gt"  : ">"};
return ( s.replace(translate_re, function(match, entity) {
  return translate[entity];
}) );
};

试试这个......这对我有用

Answer 7

删除所有此类符号所具有的&和;之间的所有内容。如果你只是想摆脱他们。

text.replace(/&.*;/g,'');

Answer 8

对我来说替换不起作用...... 试试这段代码：

str = str.split("&quot;").join('"');

Answer 9

破解这个问题的一种方法是用一些换行符和一个标记用两个或多个空格替换任何空行。然后发布降价，用该标记替换段落以换行。

{"name":
    {"type":"json",
     "payload":"
         {\"id\": 
          \"123\",
          \"activities\": [....]  
         }
    }
 }

它的作用是找到每行只有几个空格+。它使用前瞻，以便它从正确的位置开始进行下一次替换，如果没有，它会连续两行中断。

然后 Markdown 会将这些行解析为只包含标记“EMPTY_LINE”的段落。所以你可以浏览 rawHtml 并用换行符替换它们。

作为奖励，替换功能会将所有换行段落压缩为上下段落（如果存在）。

实际上，您可以这样使用它：

// replace empty lines with "EMPTY_LINE"
rawMdText = rawMdText.replace(/\n  +(?=\n)/g, "\n\nEMPTY_LINE\n");
// put <br> at the end of any other line with two spaces
rawMdText = rawMdText.replace(/  +\n/, "<br>\n");

// parse
let rawHtml = markdownParse(rawMdText);

// for any paragraphs that end with a newline (injected above) 
// and are followed by multiple empty lines leading to
// another paragraph, condense them into one paragraph
mdHtml = mdHtml.replace(/(<br>\s*<\/p>\s*)(<p>EMPTY_LINE<\/p>\s*)+(<p>)/g, (match) => {
  return match.match(/EMPTY_LINE/g).map(() => "<br>").join("");
});

// for basic newlines, just replace them
mdHtml = mdHtml.replace(/<p>EMPTY_LINE<\/p>/g, "<br>");

输出如下：

A line with spaces at end  
  
  
and empty lines with spaces in between will condense into a multi-line paragraph.

A line with no spaces at end
  
  
and lines with spaces in between will be two paragraphs with extra lines between.

从javascript dom文本节点替换

9 个答案: