使用正则表达式从R中删除不需要的html标签

时间:2019-02-14 23:06:54

标签: html r regex

我有以下字符串:

aaa<-"\n                                                        \n                                                            267 Oberlin St.\n                                                            \n                                                            New York, New York\n                                                            \n                                                            US, 10018\n                                                        \n                                                    "

如何摆脱\n和空白?

我尝试了以下操作:

str_replace_all(aaa, "[\n]", "")
[1] "                                                                                                                

    267 Oberlin St.                                                                                                                        New York, New York                                                                                                                        US, 10018  

str_replace_all(aaa, " ", "")
[1] "\n\n267OberlinSt.\n\nNewYork,NewYork\n\nUS,10018\n\n"

str_replace_all(aaa, "[ \n ]", "")
[1] "267OberlinSt.NewYork,NewYorkUS,10018"

我正在寻找以下内容:

"267 Oberlin St. New York, New York US, 10018"

1 个答案:

答案 0 :(得分:2)

如果我们假设您需要删除任何0+空格,然后删除换行符,然后再删除3个或更多空格,则可以使用

   $(document).ready(function(){
    var TotalValue = 0;
    $("#tableData tr").each(function(){
          TotalValue += parseFloat($(this).find('.totalPrice').text().replace(/,/g, "₱"));
    });
    alert(TotalValue);
});

或者,更精确一点,可以重复换行符+ 3个或更多的空格模式:

> trimws(gsub(" *\n {3,}", " ", aaa))
[1] "267 Oberlin St.  New York, New York  US, 10018"

模式详细信息

  • > trimws(gsub(" *(?:\n {3,})+", " ", aaa)) [1] "267 Oberlin St. New York, New York US, 10018" -0个或更多空格
  • *-与以下项的1个或多个重复匹配的非捕获组:
    • (?:\n {3,})+-换行符
    • \n-3个或更多空格

要匹配所有水平空白,可以用 {3,}[[:blank:]]替换模式中的文字空间,如果添加\h