作为我的功能工程的一部分,我需要解析来自不同语言的文本字符串,并将文本括在括号内。一切都很顺利,直到我遇到一个非常奇怪的现象。对于某些语言,我需要找到的括号看起来略有不同,各种正则表达式选项都失败了。
我正在粘贴屏幕截图,因为奇怪的是,复制和粘贴奇怪的括号会将其更改为“正常”,因此我无法设置不同的正则表达式来单独找到它们。
请注意,第一个条目中的括号看起来正常,但对于第二个条目,它看起来有点“尖锐”
如果我使用stringr的str_extract,第一个实例工作正常,但第二个实例失败。
但是,编码是一样的。有谁知道发生了什么事?
[编辑:以下是这些相同示例的dput结果。 dput显然将括号视为等效,即使grep没有]
c("Obnaružena poterâ šaga na (Motor šprica pipettora R1).", "(STAT tàn zhen Z zhóu ma dá) tàn cè dào diu bù<U+3002>")
最后,我实际上将R中的两个括号复制并粘贴到下面的代码窗口中;它们确实以这种方式出现。第一是正常的,第二是奇怪的。
( (