如何使用Regex提取字符串进行POS标记

时间:2017-06-09 11:29:21

标签: r regex

参考question,我在以下示例的解决方案中遇到了一些困难。

 "I/PRP did/VBD n't/RB experienced/VBN much/JJ service/NN differentiation/NN" The/DT desktop/NN and/CC CAD/NN support/NN is/VBZ working/VBG as/IN expected/VBN CAD-support/NNP Desktop/NNP management/NN related/VBD to/TO LSB/NNP Desktop/NNP management/NN team/NN is/VBZ very/RB committed/VBN ./." 

由于在" n&#t;#34;中有撇号,结果并未达到预期效果。和连字符" CAD-Support"。我将此作为新请求发布。任何人都可以帮我解决这个问题。谢谢!

1 个答案:

答案 0 :(得分:1)

如果您想使用以前的解决方案,您需要更改的是正则表达式

[^\s/]+

代码:

str_extract_all(str1, "[^\\s/]+")

请参阅regex demo

它将匹配除空白和/之外的1个或多个字符。

为避免匹配./.,您需要使用类似

的内容
\w+(?:['-]\w+)*

代码:

str_extract_all(str1, "\\w+(?:['-]\\w+)*")

将匹配1+个字符,后跟0 + '-的序列,后跟1个字的字符。请参阅this regex demo