如何从其他文本中删除网页中的html标签?

时间:2014-08-21 11:10:40

标签: javascript html dom tampermonkey


我正在为一个网站编写一个简单的解析器,我是新手。但是,该网站内部有WBR HTML-tag个链接。例如,链接看起来像这样:
<a href="www.example1.com">[The Aven"<wbr></wbr>"gers [720p, DVDRIP]</a> <a href="www.example2.com"><[Home alo"<wbr></wbr>"ne [1080p, BDRIP]</a>

我需要删除"<wbr></wbr>"文字。
我已设法使用此Tampermonkey脚本删除wbr标记:

del = document.getElementsByTagName("wbr");
 if (del.length > 0) {
  for (i = 0, j = del.length; i < j; i++) {
   del[i].parentNode.removeChild(del[i]);
 }
}

但我仍然无法删除引号,因此我的新文字如下所示:

<a href="www.example1.com">[The Aven""gers [720p, DVDRIP]</a>
<a href="www.example2.com"><[Home alo""ne [1080p, BDRIP]</a>

我的解析器不起作用。我已经尝试搜索选择文字的功能,而不是HTML标记,但无法找到它。你能帮我修改一下这个脚本吗?
提前谢谢。

2 个答案:

答案 0 :(得分:0)

删除 wbr 标记后,您可以使用javascript&quot;的replace()函数删除引号:

del = document.getElementsByTagName("wbr");
if (del.length > 0) {
   for (i = 0, j = del.length; i < j; i++) {
      var parentElement = del[i].parentNode;
      parentElement.removeChild(del[i]);
      parentElement.text().replace(/"/g, '');
   }
}

答案 1 :(得分:0)

问题很混乱,但在Fiddle上运行它清楚地表明,你只需要删除html正文中的引号,这应该可以完成工作:

document.body.innerHTML = document.body.innerHTML.replace(/"/g, '');

查看工作小提琴here。如果这是您正在寻找的,请告诉我