我现在已经搜索了一段时间,但仍然无法弄明白。 我找到了像([一 - 龯])|([ぁ - んァ - ン])这样的表达式,但不知道如何删除除了这些之外的所有内容。
我喜欢做的事情是这样的:
1. おはようございます ohayou gozaimasu – Good morning! 2. こんにちは konnichiwa – Hello / Good afternoon! 3. 久しぶり hisashiburi – It’s been a while. 4. じゃあまた jaa mata – See you! 5. お元気で o genki de – Take care. 6. o namae wa nan desu ka – What’s your name? お名前は何ですか? 7. …desu – I’m……です 8. suki desu – I like it. 好きです 9. If you’re not going to be waving your handkerchief in a heartfelt goodbye (where “さようなら” [sayounara] or “farewell” would be more appropriate), then じゃあまた is a great way to say “see you”! You can also use ではまた[dewa mata] which is slightly more polite. じゃあね (see ya) and じゃあまた明日ね (jaa mata ashita ne – see you tomorrow) are also quick and friendly phrases for parting. If you’re in Osaka, then be sure to try some 大坂弁 (oosaka ben – Osaka dialect) and say, ほなね[hona ne]! 10. Example. ああ、それは、何ですか。 11. 1402 10時 12. 1405 11時 13 1408 12時 14 1411 1分 15 1414 2分 16. 1450 3時間 17. 1474 30時間
到
おはようございます こんにちは 久しぶり じゃあまた お元気で お名前は何ですか です 好きです さようなら じゃあまた ではまた じゃあね じゃあまた明日ね 大坂弁 ほなね ああ、それは、何ですか。 10時 11時 12時 1分 2分 3時間 30時間
答案 0 :(得分:5)
按照Gurman和KenY-N指出的op的评论进行更新:
搜索者:
[^、-〿-ゟ゠-ヿ-一-龯\r\n]+(?![、-〿-ゟ゠-ヿ-一-龯\d])|[…“”’\"'–]
并将其替换为:
empty
说明:
^
否定类,意味着捕获任何不存在的东西
在[] [^、-〿-ゟ゠-ヿ-一-龯\r\n\b]
范围您不想删除哪个
包括平假名,katagana等。\r\n
您需要这样做才能取代换行符+
表示在课程中重复字符(?![、-〿-ゟ゠-ヿ-一-龯\d])
这种消极的先行可以确保这一点
任何以前的捕获都没有日语字符和
编号|[…“”’–]
这样可以确保删除这些丢失的标点符号。答案 1 :(得分:1)
Based on this page,这将找到每个非日语字符序列:
([^ -ヿ一-龥!-○])+
我已经跳过了评论中提到的箭头,符号和“奇怪的星号”。基本上这将选择任何非日语字符,包括其他语言文本。请注意,Notepad ++似乎不允许\uxxxx
格式,因此需要输入文字字符,或者像我一样,从charmap
粘贴。
如果我这样做:
\b([^ -ヿ一-龥!-○])+\b
即,在单词边界之间匹配,它也保留了11时和eメール。我不确定为什么,但是......