使用grep / str_extract

时间:2016-05-03 15:19:50

标签: r text-mining

作为我的功能工程的一部分,我需要解析来自不同语言的文本字符串,并将文本括在括号内。一切都很顺利,直到我遇到一个非常奇怪的现象。对于某些语言,我需要找到的括号看起来略有不同,各种正则表达式选项都失败了。

我正在粘贴屏幕截图,因为奇怪的是,复制和粘贴奇怪的括号会将其更改为“正常”,因此我无法设置不同的正则表达式来单独找到它们。

enter image description here

请注意,第一个条目中的括号看起来正常,但对于第二个条目,它看起来有点“尖锐”

enter image description here

如果我使用stringr的str_extract,第一个实例工作正常,但第二个实例失败。

enter image description here

但是,编码是一样的。有谁知道发生了什么事?

[编辑:以下是这些相同示例的dput结果。 dput显然将括号视为等效,即使grep没有]

c("Obnaružena poterâ šaga na (Motor šprica pipettora R1).", "(STAT tàn zhen Z zhóu ma dá) tàn cè dào diu bù<U+3002>")

最后,我实际上将R中的两个括号复制并粘贴到下面的代码窗口中;它们确实以这种方式出现。第一是正常的,第二是奇怪的。

(  (

0 个答案:

没有答案