在HTML或TXT中删除<rt>和</rt>之间的任何内容的最佳方法

时间:2017-12-11 02:17:36

标签: html string text

我在2000个文件中有2GB文件的HTML文件 我找到了将以下内容应用于所有内容的最佳方法:

1)删除<rt></rt>

之间的任何内容

2)删除<rt>, </rt>, <ruby>, </ruby>

以下是输入和输出示例

输入:

<ruby>
    <span class="kobospan" id="calibre_link-78">唐</span>
    <rt>
        <span class="kobospan" id="calibre_link-79">とう</span>
    </rt>
    <span class="kobospan" id="calibre_link-80">突</span>
    <rt>
        <span class="kobospan" id="calibre_link-81">とつ</span>
    </rt>
</ruby>
<span class="kobospan" id="calibre_link-82"></span>

输出:

<span class="kobospan" id="calibre_link-78">唐</span>
<span class="kobospan" id="calibre_link-80">突</span>
<span class="kobospan" id="calibre_link-82"></span>

我正在寻找的最理想的解决方案是.bat文件,我可以直接拖入内容并使其应用更改。

最不理想的解决方案是带有命令代码的程序,我可以通过点击自动应用所有更改。

至少,我希望能够逐个手动执行此操作。

1 个答案:

答案 0 :(得分:0)

由于已经过了两周而且你还没有得到任何答案,我可以为你提供这个解决方案,即使它不是理想的方式:

在Notepad ++中打开一个文件并执行正则表达式查找和替换:

找到:</?ruby>\s+?^|<rt>.*?</rt>\s+?^

&#34;替换为&#34;框,然后单击&#34;全部替换&#34;。

确保您已选择&#34;正则表达式&#34;搜索模式并选中&#34;的复选框。匹配换行符&#34;