如何编写正则表达式以有效匹配瑞典语和英语单词?
我必须能够匹配Å,é和'。我认为123也是一个词。我甚至认为1:e和1st是单词......
如果我希望匹配来自俄语和日语的单词,我将如何继续。
谢谢,
百里
P.S。以下不是单词,不应匹配:
,= HELLO =,@ NEW_LINE_MARKER,可以“t,hel * o,/ new /
另外,
这个字符串“嘿!什么?是的,我来了。”应该分成:
(喂, 什么, 是的,我来了)
答案 0 :(得分:4)
日本
在CJK文本中检测单词边界需要熟练掌握语言知识;这些文本不是用任何类型的单词分隔书写的,并且没有书面形式的独特结构,这使得一个单词与下一个单词区别开来。 More on the subject.
罗马文本(英语,瑞典语)和大多数西里尔语文本(俄语)按空格和特定标点符号(句号,逗号,短划线,但不是连字符)划分。