正则表达式仅捕获标记语料库中的单词

时间:2016-02-10 05:06:34

标签: python regex

我正在使用Python中的NLP进行一些实验。我知道NLTK,但是现在我没有使用它。我有一个标记语料库,我想只捕获单词,而不是通过正则表达式捕获它们的标签。

例如,     \n\n\tthe/at fulton/np-tl county/nn-tl grand/jj-tl jury/nn-tl said/vbd是标记语料库的一部分,我想提取单词。我是使用re模块的新手。请建议一些模式,以便它对我的工作有所帮助。

2 个答案:

答案 0 :(得分:1)

@ maxymoo的答案对于您发布的示例是正确的,但如果您的语料库中的某些单词包含斜杠(例如“和/或”)或连字符,则无效。

要捕获带连字符的字词,请将答案中的(\w+)替换为(\w+-\w+|\w+)

斜线更难。您需要收集完整的标签列表并编写预测。

答案 1 :(得分:0)

看起来你正在尝试匹配一个单词后跟一个斜杠,但不包括斜杠,正则表达式为(\w+)/, - 括号告诉你要保留哪个组 - - 或者在python中

re.findall('(\w+)/',s)