正则表达式记事本++删除除日语字符之外的所有字符

时间:2017-10-11 04:53:42

标签: regex notepad++

我现在已经搜索了一段时间,但仍然无法弄明白。 我找到了像([一 - 龯])|([ぁ - んァ - ン])这样的表达式,但不知道如何删除除了这些之外的所有内容。

我喜欢做的事情是这样的:

1. おはようございます ohayou gozaimasu – Good morning!
2. こんにちは  konnichiwa – Hello / Good afternoon!
3. 久しぶり  hisashiburi – It’s been a while.
4. じゃあまた jaa mata – See you!
5. お元気で  o genki de – Take care.
6. o namae wa nan desu ka – What’s your name? お名前は何ですか? 
7. …desu – I’m……です 
8. suki desu – I like it. 好きです 
9. If you’re not going to be waving your handkerchief in a heartfelt goodbye (where “さようなら” [sayounara] or “farewell” would be more appropriate), then じゃあまた is a great way to say “see you”! You can also use ではまた[dewa mata] which is slightly more polite. じゃあね (see ya) and じゃあまた明日ね  (jaa mata ashita ne – see you tomorrow) are also quick and friendly phrases for parting. If you’re in Osaka, then be sure to try some 大坂弁 (oosaka ben – Osaka dialect) and say, ほなね[hona ne]!
10. Example. ああ、それは、何ですか。
11. 1402  10時               
12. 1405  11時               
13  1408  12時               
14  1411  1分            
15  1414  2分            
16. 1450  3時間           
17. 1474  30時間   

おはようございます
こんにちは
久しぶり
じゃあまた
お元気で
お名前は何ですか
です
好きです
さようなら じゃあまた ではまた じゃあね じゃあまた明日ね 大坂弁 ほなね
ああ、それは、何ですか。
10時
11時
12時
1分
2分
3時間
30時間

2 个答案:

答案 0 :(得分:5)

  

按照Gurman和KenY-N指出的op的评论进行更新:

搜索者:

[^、-〿぀-ゟ゠-ヿ＀-￯一-龯\r\n]+(?![、-〿぀-ゟ゠-ヿ＀-￯一-龯\d])|[…“”’\"'–]

并将其替换为:

empty

说明:

  1. ^否定类,意味着捕获任何不存在的东西 在[]
  2. 里面
  3. [^、-〿぀-ゟ゠-ヿ＀-￯一-龯\r\n\b]范围您不想删除哪个 包括平假名,katagana等。
  4. \r\n您需要这样做才能取代换行符
  5. +表示在课程中重复字符
  6. (?![、-〿぀-ゟ゠-ヿ＀-￯一-龯\d])这种消极的先行可以确保这一点 任何以前的捕获都没有日语字符和 编号
  7. |[…“”’–]这样可以确保删除这些丢失的标点符号。
  8. Demo

答案 1 :(得分:1)

Based on this page,这将找到每个非日语字符序列:

([^ -ヿ一-龥!-○])+

我已经跳过了评论中提到的箭头,符号和“奇怪的星号”。基本上这将选择任何非日语字符,包括其他语言文本。请注意,Notepad ++似乎不允许\uxxxx格式,因此需要输入文字字符,或者像我一样,从charmap粘贴。

如果我这样做:

\b([^ -ヿ一-龥!-○])+\b

即,在单词边界之间匹配,它也保留了11时和eメール。我不确定为什么,但是......