如何在Notepad ++中删除除UTF-8编码之外的所有内容

时间:2017-12-06 21:52:02

标签: regex utf-8 notepad++

我有一个类似于以下内容的文本文件:

<a style="color:#414146;" onclick="return trackOutboundLink(true,'Current Affair Page','question widget',' question click');" href="https://onlinetyari.com/hindi/question-bank/question-sentral-soyal-saileniti-i17677.html">
                                                सेण्ट्रल सोयल सैलेनिटी रिसर्च इंस्टीट्यूट (CSSRI) हरियाणा के किस जिले में स्थित 
हैं ?                                                </a>
                                            </div>
                                            <div class="show-optipns light">
                                                <a class="s_option" id="options_17677" onclick="showOption('17677','1')" style="text-align:right">Show Options</a>
                                            </div>
                                            <div id="question_17677" class="question_info" name="question_info">
                                                <div id="op_1_17677" class="col-sm-6 question-option form-group cursor-pointer" onclick="showAnswer('17677',1,1)" style="float:none">
                                                    <div class="input-group regular">
                                                        <span class="input-group-addon">A</span>
                                                        <div id="checkbox1_17677" type="text" class="form-control checkbox_data" id="inputGroupSuccess3" aria-describedby="inputGroupSuccess3Status">
                                                            करनाल में                                                            <span id="chk-tick1-17677"></span>
                                                            <span id="inputGroupSuccess3Status" class="sr-only">(success)</span>
                                                        </div>
                                                    </div>
                                                </div>
                                                <div id="op_2_17677" class="col-sm-6 question-option form-group cursor-pointer" onclick="showAnswer('17677',2,1)" style="float:none">
                                                    <div class="input-group regular">
                                                        <span class="input-group-addon">B</span>
                                                        <div id="checkbox2_17677" type="text" class="form-control checkbox_data" id="inputGroupSuccess3" aria-describedby="inputGroupSuccess3Status">
                                                            महेन्द्रगढ़ में  

我想删除除印地语字词以外的所有内容,因此我的文件仍为:

सेण्ट्रलसोयलसैलेनिटीरिसर्चइंस्टीट्यूटहरियाणाकेकिसजिलेमेंस्थित हैं? करनालमेंमहेन्द्रगढ़में

这是否可以使用正则表达式?

1 个答案:

答案 0 :(得分:0)

删除与此正则表达式匹配的所有内容:

[^[:unicode:]]+

如果要保留空格,请删除与此正则表达式匹配的所有内容:

[^[:unicode:]\s]+

然后,如果要将所有间距缩小到单个空格,请搜索:

\s+

用一个空格替换它。结果如下:

सेण्ट्रलसोलेसेलिटीरिसर्चइंस्टीट्यूटहरियाणाकेकिसजिलेमेंस्थितहैंकरनालमेंमहेन्द्रगढ़में