如何编写这些模式?
1) [/ DT $ government / NN]有/ VBZ不/ RB [任何/ DT权限/ NN]到/ TO发行/ VB [新/ JJ债务/ N $义务/ NNS] / IN [any / DT] kind / NN] [/ DT Treasury / NNP]说/ VBD ......
如何获得DT $,VBZ,RB,DT,NN ...... 或'/'与空间之间的部分。
2)这是Brown数据库的标签集。此链接中是否存在所有标记的模式: http://www.scs.leeds.ac.uk/amalgam/tagsets/brown.html
可以将1)和2)合并为一种模式吗?
我们是正则表达式的新手,请帮忙。 非常感谢你。
编辑: 1)我们想要在/和空间之间提取部分: 例如:这是带有标签的语料库中的一个部分,我们只想提取标签,而不是单词/标记。标签集包括大写字母或大写字母+ $,如下所示。我们只想获得标签。我们是否明确提出问题?标签规则是:
大写字母或大写字母或大写字母+ $
[/ $ $ government / NN] / VBZ不/ RB [any / DT authority / NN] ......
如何获得仅提取的模式 DT $,NN,VBZ,RB,DT,NN ..
换句话说,我们应该介于/和空间之间。
我们正在使用支持大多数功能和模式的Tperlregex包装器。 reg可能像/ \ w + | $,但我们不知道。
我们不知道是否已经说清楚了。
答案 0 :(得分:0)
我认为你应该使用这个:“/ [A-Z] + \ $?\”。 (当然没有引号)