我正在使用Python中的NLP进行一些实验。我知道NLTK,但是现在我没有使用它。我有一个标记语料库,我想只捕获单词,而不是通过正则表达式捕获它们的标签。
例如,
\n\n\tthe/at fulton/np-tl county/nn-tl grand/jj-tl jury/nn-tl said/vbd
是标记语料库的一部分,我想提取单词。我是使用re
模块的新手。请建议一些模式,以便它对我的工作有所帮助。
答案 0 :(得分:1)
@ maxymoo的答案对于您发布的示例是正确的,但如果您的语料库中的某些单词包含斜杠(例如“和/或”)或连字符,则无效。
要捕获带连字符的字词,请将答案中的(\w+)
替换为(\w+-\w+|\w+)
。
斜线更难。您需要收集完整的标签列表并编写预测。
答案 1 :(得分:0)
看起来你正在尝试匹配一个单词后跟一个斜杠,但不包括斜杠,正则表达式为(\w+)/
, - 括号告诉你要保留哪个组 - - 或者在python中
re.findall('(\w+)/',s)