如何写这些模式?

时间:2010-11-11 08:00:32

标签: regex

如何编写这些模式?

1) [/ DT $ government / NN]有/ VBZ不/ RB [任何/ DT权限/ NN]到/ TO发行/ VB [新/ JJ债务/ N $义务/ NNS] / IN [any / DT] kind / NN] [/ DT Treasury / NNP]说/ VBD ......

如何获得DT $,VBZ,RB,DT,NN ...... 或'/'与空间之间的部分。

2)这是Brown数据库的标签集。此链接中是否存在所有标记的模式: http://www.scs.leeds.ac.uk/amalgam/tagsets/brown.html

可以将1)和2)合并为一种模式吗?

我们是正则表达式的新手,请帮忙。 非常感谢你。

编辑: 1)我们想要在/和空间之间提取部分: 例如:这是带有标签的语料库中的一个部分,我们只想提取标签,而不是单词/标记。标签集包括大写字母或大写字母+ $,如下所示。我们只想获得标签。我们是否明确提出问题?标签规则是:

大写字母或大写字母或大写字母+ $

[/ $ $ government / NN] / VBZ不/ RB [any / DT authority / NN] ......

如何获得仅提取的模式 DT $,NN,VBZ,RB,DT,NN ..

换句话说,我们应该介于/和空间之间。

我们正在使用支持大多数功能和模式的Tperlregex包装器。 reg可能像/ \ w + | $,但我们不知道。

我们不知道是否已经说清楚了。

1 个答案:

答案 0 :(得分:0)

我认为你应该使用这个:“/ [A-Z] + \ $?\”。 (当然没有引号)