我正试图编写一个正则表达式来提取中英文的标签内容。中文的#标签与英文的#标签有所不同。使用两个井号标签符号,并将内容直接放在它们之间,例如#中国#
。另外,中文不使用空格。一个例子是
我来自#中国#。
相应的英语句子是
I'm from #China.
是否可以编写单个正则表达式来提取这两种语言的主题标签?如果可以,怎么办?
答案 0 :(得分:5)
string = "我来自#中国#。 I'm from #China."
string.scan(/#\w+|#\p{Han}+#/)
=> ["#中国#", "#China"]