使用html文件中的特定属性值删除标记所包含的文本

时间:2011-02-24 12:14:07

标签: firebug html-parsing html-editor html

我有一个包含英文和阿拉伯文字的html文件。我需要从文件中删除所有阿拉伯文本。

我发现所有urdu文本都位于<p><div>标记内,其属性为style="direction: rtl;",这使得阿拉伯文字从右到左显示。

剥离的例子:

<P style="direction:rtl">
<SPAN style="font-family:'serif'>Arabic Text: ������������</SPAN>
</P>

所以我需要找到所有带有style="direction:rtl"属性的标记块(我不太了解html,我不太确定它被称为属性)并删除它们。试过Aptana Studio,但我发现它也无法完成这项工作(请告诉我,如果我错过了一个技巧)。

我试图用Firebug做到这一点,但无法弄明白(之前从未使用过)。

这可以用Firebug完成吗?或者,是否有HTML编辑器可以让我搜索并列出具有特定标签或属性值的块?

非常感谢任何帮助。

1 个答案:

答案 0 :(得分:1)

有各种各样的方法可以做到这一点;如果这是一个持续的操作,那么Python程序可能是最好的。

但是,由于这是一个Firebug问题并且声称是一次性操作,所以这是使用Firebug和jQuery的方法:

  1. 制作原始文件的备份副本。

  2. 在Firefox中打开文件。

  3. 如果使用Noscript或类似内容,请确保暂时为本地文件启用JavaScript。

  4. 打开Firebug控制台。

  5. 如果控制台说需要,请重新加载页面。

  6. 打开大命令行/命令框。

  7. 粘贴以下代码:

    var scriptNode          = document.createElement ("script");
    scriptNode.setAttribute ("src", "http://ajax.googleapis.com/ajax/libs/jquery/1.4.2/jquery.min.js");
    document.body.appendChild (scriptNode);
    
    function KilltheCrud ()
    {
        jQuery('p[style*="rtl"]').remove ();
        jQuery('div[style*="rtl"]').remove ();
    }
    
    //-- Delay to allow jQuery to load and initialize.
    setTimeout (KilltheCrud, 444); //-- Adjust time delay if necessary
    


  8. 按“运行”。

  9. 现在应该删除文件,保存修改后的文件。

  10. 完成!重复其他文件。