Question

我有一个包含英文和阿拉伯文字的html文件。我需要从文件中删除所有阿拉伯文本。

我发现所有urdu文本都位于<p>或<div>标记内，其属性为style="direction: rtl;"，这使得阿拉伯文字从右到左显示。

剥离的例子：

<P style="direction:rtl">
<SPAN style="font-family:'serif'>Arabic Text: ������������</SPAN>
</P>

所以我需要找到所有带有style="direction:rtl"属性的标记块（我不太了解html，我不太确定它被称为属性）并删除它们。试过Aptana Studio，但我发现它也无法完成这项工作（请告诉我，如果我错过了一个技巧）。

我试图用Firebug做到这一点，但无法弄明白（之前从未使用过）。

这可以用Firebug完成吗？或者，是否有HTML编辑器可以让我搜索并列出具有特定标签或属性值的块？

非常感谢任何帮助。

Answer 1

有各种各样的方法可以做到这一点;如果这是一个持续的操作，那么Python程序可能是最好的。

但是，由于这是一个Firebug问题并且声称是一次性操作，所以这是使用Firebug和jQuery的方法：

制作原始文件的备份副本。
在Firefox中打开文件。
如果使用Noscript或类似内容，请确保暂时为本地文件启用JavaScript。
打开Firebug控制台。
如果控制台说需要，请重新加载页面。
打开大命令行/命令框。

粘贴以下代码：

var scriptNode          = document.createElement ("script");
scriptNode.setAttribute ("src", "http://ajax.googleapis.com/ajax/libs/jquery/1.4.2/jquery.min.js");
document.body.appendChild (scriptNode);

function KilltheCrud ()
{
    jQuery('p[style*="rtl"]').remove ();
    jQuery('div[style*="rtl"]').remove ();
}

//-- Delay to allow jQuery to load and initialize.
setTimeout (KilltheCrud, 444); //-- Adjust time delay if necessary

按“运行”。
现在应该删除文件，保存修改后的文件。
完成！重复其他文件。

使用html文件中的特定属性值删除标记所包含的文本

1 个答案: