Question

我正在使用Python中的NLP进行一些实验。我知道NLTK，但是现在我没有使用它。我有一个标记语料库，我想只捕获单词，而不是通过正则表达式捕获它们的标签。

例如， \n\n\tthe/at fulton/np-tl county/nn-tl grand/jj-tl jury/nn-tl said/vbd是标记语料库的一部分，我想提取单词。我是使用re模块的新手。请建议一些模式，以便它对我的工作有所帮助。

Answer 1

@ maxymoo的答案对于您发布的示例是正确的，但如果您的语料库中的某些单词包含斜杠（例如“和/或”）或连字符，则无效。

要捕获带连字符的字词，请将答案中的(\w+)替换为(\w+-\w+|\w+)。

斜线更难。您需要收集完整的标签列表并编写预测。

Answer 2

看起来你正在尝试匹配一个单词后跟一个斜杠，但不包括斜杠，正则表达式为(\w+)/， - 括号告诉你要保留哪个组 - - 或者在python中

re.findall('(\w+)/',s)